エージェントモデル:行動連鎖生成を推論モデルに内在化する
Agent models: Internalizing Chain-of-Action Generation into Reasoning models
March 9, 2025
著者: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
cs.AI
要旨
従来のエージェントワークフローは、ツールや環境との相互作用を管理するために外部からのプロンプトに依存しており、これが推論モデルの自律性を制限していました。我々は、Chain-of-Action(CoA)の生成を内部化したLarge Agent Models(LAMs)を提案し、モデルが外部ツールをいつ、どのように使用するかを自律的に決定できるようにします。提案するAutoCoAフレームワークは、教師ありファインチューニング(SFT)と強化学習(RL)を組み合わせることで、モデルが推論と行動をシームレスに切り替えながら、環境との相互作用を効率的に管理できるようにします。主なコンポーネントには、ステップレベルのアクショントリガー、軌跡レベルのCoA最適化、および実環境との相互作用コストを削減するための内部世界モデルが含まれます。オープンドメインQAタスクでの評価では、AutoCoAでトレーニングされたエージェントモデルが、特に長期的な推論と多段階のアクションを必要とするタスクにおいて、ReActベースのワークフローを大幅に上回るタスク完了率を示しました。コードとデータセットはhttps://github.com/ADaM-BJTU/AutoCoAで公開されています。
English
Traditional agentic workflows rely on external prompts to manage interactions
with tools and the environment, which limits the autonomy of reasoning models.
We position Large Agent Models (LAMs) that internalize the generation of
Chain-of-Action (CoA), enabling the model to autonomously decide when
and how to use external tools. Our proposed AutoCoA framework combines
supervised fine-tuning (SFT) and reinforcement learning (RL), allowing the
model to seamlessly switch between reasoning and action while efficiently
managing environment interactions. Main components include step-level action
triggering, trajectory-level CoA optimization, and an internal world model to
reduce real-environment interaction costs. Evaluations on open-domain QA tasks
demonstrate that AutoCoA-trained agent models significantly outperform
ReAct-based workflows in task completion, especially in tasks that require
long-term reasoning and multi-step actions. Code and dataset are available at
https://github.com/ADaM-BJTU/AutoCoASummary
AI-Generated Summary