エージェントR: 反映するための言語モデルエージェントの訓練による反復的自己訓練Agent-R: Training Language Model Agents to Reflect via Iterative
Self-Training
大規模言語モデル(LLMs)エージェントは、対話環境における複雑なタスクに取り組む際にますます重要となっています。既存の研究は、主に性能を向上させるために、より強力な専門家からの振る舞いクローンを通じて焦点を当てていますが、このようなアプローチは現実世界のアプリケーションではしばしば失敗することがあり、それは主にエラーからの回復能力の欠如によるものです。しかし、ステップレベルの批評データを収集することは困難でコストがかかります。そのため、自己批評データセットの自動化および動的構築が、モデルに知的エージェント機能を付与する上で重要です。本研究では、エージェントがリアルタイムで反省することを可能にする反復的な自己トレーニングフレームワークであるAgent-Rを提案します。正確性に基づいて行動を報酬または罰する従来の方法とは異なり、Agent-RはMCTSを活用して、誤った軌道から正しい軌道を回復するためのトレーニングデータを構築します。エージェントの反省の主な課題は、ロールアウトの最後まで待つのではなく、適時な修正が必要であることにあります。このため、我々は、モデルによって誘導される批評構築メカニズムを導入します。アクターモデルは、失敗した軌道の中で(現在の能力範囲内で)最初のエラーステップを特定します。それを起点に、同じ親ノードを共有する隣接する正しい経路と結合します。この戦略により、モデルは現在のポリシーに基づいて反省を学習し、したがってより良い学習効率をもたらします。この自己改善パラダイムのスケーラビリティをさらに探るために、エラー訂正能力とデータセット構築の反復的な改良を調査します。我々の調査結果は、Agent-Rがモデルのエラーからの回復能力を持続的に向上させ、適時なエラー訂正を可能にすることを示しています。3つの対話環境での実験では、Agent-Rがエージェントに誤った行動を修正する能力を効果的に装備し、ループを回避しつつ、基準方法に比べて優れたパフォーマンスを達成しています(+5.59%)。