ATLaS: クリティカルステップ学習によるエージェントチューニング
ATLaS: Agent Tuning via Learning Critical Steps
March 4, 2025
著者: Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou
cs.AI
要旨
大規模言語モデル(LLM)エージェントは、複数ドメインにわたるタスクにおいて顕著な汎化能力を発揮しています。既存のエージェントチューニング手法では、通常、専門家の軌跡全体に対して教師ありファインチューニングを行います。しかし、軌跡全体の行動クローニングは、専門家のバイアスを導入し、専門家データでカバーされていない状態への汎化を弱める可能性があります。さらに、計画立案、中間サブタスクのための複雑な推論、戦略的意思決定といった重要なステップは、エージェントタスクの成功に不可欠であり、これらのステップを学習することがLLMエージェントの改善の鍵となります。より効果的かつ効率的なエージェントチューニングのために、我々はATLaSを提案します。ATLaSは、専門家の軌跡における重要なステップを特定し、これらのステップのみに焦点を当ててLLMをファインチューニングすることで、コストを削減します。トレーニングの焦点を少数の重要なステップに絞ることで、我々の手法は軌跡全体の過学習リスクを軽減し、異なる環境やタスク間での汎化を促進します。大規模な実験において、ATLaSによって選択されたわずか30%の重要なステップでファインチューニングされたLLMは、全てのステップでファインチューニングされたLLMや最近のオープンソースLLMエージェントを上回りました。ATLaSは、多様な環境と相互作用する汎用エージェントとしての基盤LLMのスキルを維持し、向上させます。
English
Large Language Model (LLM) agents have demonstrated remarkable generalization
capabilities across multi-domain tasks. Existing agent tuning approaches
typically employ supervised finetuning on entire expert trajectories. However,
behavior-cloning of full trajectories can introduce expert bias and weaken
generalization to states not covered by the expert data. Additionally, critical
steps, such as planning, complex reasoning for intermediate subtasks, and
strategic decision-making, are essential to success in agent tasks, so learning
these steps is the key to improving LLM agents. For more effective and
efficient agent tuning, we propose ATLaS that identifies the critical steps in
expert trajectories and finetunes LLMs solely on these steps with reduced
costs. By steering the training's focus to a few critical steps, our method
mitigates the risk of overfitting entire trajectories and promotes
generalization across different environments and tasks. In extensive
experiments, an LLM finetuned on only 30% critical steps selected by ATLaS
outperforms the LLM finetuned on all steps and recent open-source LLM agents.
ATLaS maintains and improves base LLM skills as generalist agents interacting
with diverse environments.Summary
AI-Generated Summary