自動報酬モデリングとプランニングによる自律エージェントのスケーリング
Scaling Autonomous Agents via Automatic Reward Modeling And Planning
February 17, 2025
著者: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI
要旨
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて顕著な能力を発揮してきました。しかし、オンラインショッピング、科学的推論、数学的問題解決など、多段階の意思決定と環境フィードバックを必要とする問題に対しては、LLMは依然として苦戦しています。純粋なテキストデータとは異なり、大規模な意思決定データの収集は困難です。さらに、多くの強力なLLMはAPIを通じてのみアクセス可能であり、コストと複雑さのため、エージェントタスクのためのファインチューニングが妨げられています。LLMエージェントの限界に対処するため、我々は人間の注釈なしに環境から自動的に報酬モデルを学習できるフレームワークを提案します。このモデルは、LLMエージェントの行動軌跡を評価し、タスク計画のためのヒューリスティックを提供するために使用できます。具体的には、我々のアプローチでは、1つのLLMベースのエージェントをランダムに環境内でナビゲートさせ、多様な行動軌跡を生成します。その後、別のLLMを活用して、各軌跡に対してタスク意図を割り当て、正しい応答とともに否定的な応答を合成します。これらのトリプレット(タスク意図、肯定的応答、否定的応答)は、行動軌跡をスコアリングできる報酬モデルを最適化するためのトレーニングデータとして利用されます。我々のフレームワークの有効性と汎用性は、異なるエージェントベンチマークで実施された評価を通じて実証されています。結論として、我々の提案するフレームワークは、LLMエージェントの意思決定能力を向上させるための重要な進展を表しています。報酬モデルの学習を自動化することで、データ不足とAPIの制限という課題を克服し、複雑でインタラクティブな環境におけるLLMの応用を革新する可能性があります。この研究は、多段階の意思決定を必要とする幅広い現実世界の問題に取り組むことができる、より洗練されたAIエージェントへの道を開くものです。
English
Large language models (LLMs) have demonstrated remarkable capabilities across
a range of text-generation tasks. However, LLMs still struggle with problems
requiring multi-step decision-making and environmental feedback, such as online
shopping, scientific reasoning, and mathematical problem-solving. Unlike pure
text data, collecting large-scale decision-making data is challenging.
Moreover, many powerful LLMs are only accessible through APIs, which hinders
their fine-tuning for agent tasks due to cost and complexity. To address LLM
agents' limitations, we propose a framework that can automatically learn a
reward model from the environment without human annotations. This model can be
used to evaluate the action trajectories of LLM agents and provide heuristics
for task planning. Specifically, our approach involves employing one LLM-based
agent to navigate an environment randomly, generating diverse action
trajectories. Subsequently, a separate LLM is leveraged to assign a task intent
and synthesize a negative response alongside the correct response for each
trajectory. These triplets (task intent, positive response, and negative
response) are then utilized as training data to optimize a reward model capable
of scoring action trajectories. The effectiveness and generalizability of our
framework are demonstrated through evaluations conducted on different agent
benchmarks. In conclusion, our proposed framework represents a significant
advancement in enhancing LLM agents' decision-making capabilities. By
automating the learning of reward models, we overcome the challenges of data
scarcity and API limitations, potentially revolutionizing the application of
LLMs in complex and interactive environments. This research paves the way for
more sophisticated AI agents capable of tackling a wide range of real-world
problems requiring multi-step decision-making.Summary
AI-Generated Summary