TravelPlanner: 言語エージェントを用いた実世界計画のためのベンチマーク
TravelPlanner: A Benchmark for Real-World Planning with Language Agents
February 2, 2024
著者: Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su
cs.AI
要旨
人工知能の黎明期から、計画立案はその中核的な追求の一部となってきましたが、初期のAIエージェントは主に制約された環境に焦点を当てていました。なぜなら、人間レベルの計画立案に必要な多くの認知的基盤が欠けていたからです。最近、大規模言語モデル(LLM)を基盤とする言語エージェントが、ツールの使用や推論といった興味深い能力を示しています。これらの言語エージェントは、従来のAIエージェントの手が届かないようなより複雑な環境での計画立案が可能なのでしょうか?この調査を進めるために、私たちはTravelPlannerという新しい計画立案ベンチマークを提案します。これは、旅行計画という現実世界で一般的な計画シナリオに焦点を当てたものです。TravelPlannerは、豊富なサンドボックス環境、約400万件のデータレコードにアクセスするための様々なツール、そして1,225件の入念に選ばれた計画意図と参照計画を提供します。包括的な評価により、現在の言語エージェントはこのような複雑な計画タスクを処理する能力がまだないことが示されています。GPT-4でさえも、成功率はわずか0.6%に留まります。言語エージェントは、タスクに集中し続けること、適切なツールを使用して情報を収集すること、または複数の制約を追跡することに苦労しています。しかし、言語エージェントがこのような複雑な問題に取り組む可能性があること自体が、重要な進歩であることに注目しています。TravelPlannerは、将来の言語エージェントにとって挑戦的でありながらも意義深いテストベッドを提供します。
English
Planning has been part of the core pursuit for artificial intelligence since
its conception, but earlier AI agents mostly focused on constrained settings
because many of the cognitive substrates necessary for human-level planning
have been lacking. Recently, language agents powered by large language models
(LLMs) have shown interesting capabilities such as tool use and reasoning. Are
these language agents capable of planning in more complex settings that are out
of the reach of prior AI agents? To advance this investigation, we propose
TravelPlanner, a new planning benchmark that focuses on travel planning, a
common real-world planning scenario. It provides a rich sandbox environment,
various tools for accessing nearly four million data records, and 1,225
meticulously curated planning intents and reference plans. Comprehensive
evaluations show that the current language agents are not yet capable of
handling such complex planning tasks-even GPT-4 only achieves a success rate of
0.6%. Language agents struggle to stay on task, use the right tools to collect
information, or keep track of multiple constraints. However, we note that the
mere possibility for language agents to tackle such a complex problem is in
itself non-trivial progress. TravelPlanner provides a challenging yet
meaningful testbed for future language agents.