強化学習

SmallTrainを使った強化学習についての説明

SmallTrainは多様なことができます。ここではSmallTrainを使った強化学習プロジェクトについて説明します。

SmallTrainの強化学習バージョンはオープンソースプロジェクトとしては未公開です(2020.4時点)

Geek Guildには技術力があるから…

Geek Guildは、研究の経験があり、高いエンジニアリング力をもつ技術者集団だから、 強化学習をはじめ最先端のAIを開発することができます。

強化学習は、予測・シミュレーション分野の人工知能研究開発では先端技術です。 研究者レベルでは論文発表がいろいろありますが、ビジネスの世界では世界的にも実運用 はこれからの技術です。 その理由は、最先端の強化学習の人工知能を構築するには、高い技術力が必要だからです。

強化学習の概要

  • 強化学習とは、エージェント(AI)が学習するシミュレータ(仮想環境)を構築し、そのなかで試行錯誤させる学習方法
  • 教師あり学習とは異なり、状態入力に対する正しい行動出力を明示的に示す教師が存在しない
  • 試行錯誤を通じて学習するため、人間のエキスパートが得た解よりも優れた解を発見する可能性 がある
  • 目的に応じて報酬の与え方を設計者が設定するだけで、あらゆる種類の制御方法を同一のエージェントで自動的に獲得

強化学習の案件

1. ロジスティックの発注自動化

小売業者の商品を良いタイミングで卸業者の倉庫から小売業者へ商品を発送する。その発送を一度に済ませることで運送料を削減、一方で、発送回数を減らすと欠品率上がりやすいため、それを一定水準に保つ必要があります。さらには、トラック1台にできる限りの荷物を運ぶ必要もあります。 こちらを立てればあちらが立たないというような複雑な課題には、最先端の強化学習モデルを構築し、精度を向上させる必要があります。

A3C 強化学習のなかでもA3Cは最先端です。2016年3月「人工知能vs世界最強の棋士」で勝利したことで有名な囲碁AIはQ-Learningという強化学習を使いました。それからさらに3世代先の最先端の強化学習モデルを使った案件です。

2. 売り上げ最大化にするホテル客室予測

ホテル客室価格予測ダイナミックプライシングのさらに上を目指し、売り上げ最大化 するホテル客室予測の強化学習モデルを構築 過去の人の値付けを教師とした教師あり学習では、教師データが真に正しいとは言い切れません。 ホテル周辺の環境の変化や人間行動の変化に合わせ、売り上げ最大化を目指す予測モデルを構築し精度をあげていきます。