ChatPaper.aiChatPaper

計画における言語エージェントの障壁の解明

Revealing the Barriers of Language Agents in Planning

October 16, 2024
著者: Jian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao
cs.AI

要旨

自律計画は人工知能の創成以来、継続的に追求されてきました。厳選された問題解決者に基づいて、初期の計画エージェントは特定のタスクに対する正確な解決策を提供できましたが、一般化には欠けていました。大規模言語モデル(LLMs)の登場とその強力な推論能力により、与えられたタスクに対する合理的な解決策を自動生成することで、自律計画への関心が再燃しています。しかし、先行研究と私たちの実験によると、現在の言語エージェントはまだ人間レベルの計画能力を欠いていることが示されています。最先端の推論モデルであるOpenAI o1でさえ、複雑な実世界の計画ベンチマークのうちの1つでわずか15.6%しか達成していません。これは重要な問いを浮かび上がらせます:言語エージェントが人間レベルの計画を達成するのを妨げているのは何か?既存の研究はエージェントの計画における性能の低さを強調していますが、それらに対処するために提案された戦略の根本的な問題やメカニズム、制約、限界が不十分に理解されています。本研究では、特徴の帰属研究を適用し、エージェントの計画を妨げる2つの主要要因を特定します:制約の役割の限定と質問の影響の低下。また、現在の戦略がこれらの課題を緩和するのに役立つものの、それらを完全に解決するわけではないことがわかり、エージェントが人間レベルの知能に到達するまでにはまだ長い道のりが残されていることを示しています。
English
Autonomous planning has been an ongoing pursuit since the inception of artificial intelligence. Based on curated problem solvers, early planning agents could deliver precise solutions for specific tasks but lacked generalization. The emergence of large language models (LLMs) and their powerful reasoning capabilities has reignited interest in autonomous planning by automatically generating reasonable solutions for given tasks. However, prior research and our experiments show that current language agents still lack human-level planning abilities. Even the state-of-the-art reasoning model, OpenAI o1, achieves only 15.6% on one of the complex real-world planning benchmarks. This highlights a critical question: What hinders language agents from achieving human-level planning? Although existing studies have highlighted weak performance in agent planning, the deeper underlying issues and the mechanisms and limitations of the strategies proposed to address them remain insufficiently understood. In this work, we apply the feature attribution study and identify two key factors that hinder agent planning: the limited role of constraints and the diminishing influence of questions. We also find that although current strategies help mitigate these challenges, they do not fully resolve them, indicating that agents still have a long way to go before reaching human-level intelligence.
PDF282November 16, 2024