自動化されたビルド環境を介した大規模言語モデルのフィードバック駆動型ツール使用改善
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
August 12, 2025
著者: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
cs.AI
要旨
大規模言語モデル(LLMs)が環境と有意義に相互作用するためには、効果的なツール使用が不可欠である。しかし、安定した訓練環境の構築や検証可能な報酬メカニズムの設計における課題から、ツール使用に特化した効率的な強化学習(RL)フレームワークの進展は限られている。この問題に対処するため、我々はシナリオ分解、ドキュメント生成、関数統合、複雑度スケーリング、ローカルデプロイメントを組み込んだ自動化された環境構築パイプラインを提案する。これにより、外部ツールに依存せずに詳細かつ測定可能なフィードバックを提供する高品質な訓練環境の作成が可能となる。さらに、ツール使用の精度とタスク実行の完全性を評価する検証可能な報酬メカニズムを導入する。構築された環境から収集された軌跡データと組み合わせることで、このメカニズムは標準的なRLアルゴリズムとシームレスに統合され、フィードバック駆動型のモデル訓練を促進する。様々な規模のLLMsを用いた実験により、推論モードや訓練アルゴリズムに関わらず、本手法がモデルの一般的な能力を損なうことなくツール使用性能を大幅に向上させることが示された。分析の結果、これらの向上はモデルの下位層MLPパラメータの更新によってもたらされる文脈理解と推論能力の改善に起因することが示唆される。
English
Effective tool use is essential for large language models (LLMs) to interact
meaningfully with their environment. However, progress is limited by the lack
of efficient reinforcement learning (RL) frameworks specifically designed for
tool use, due to challenges in constructing stable training environments and
designing verifiable reward mechanisms. To address this, we propose an
automated environment construction pipeline, incorporating scenario
decomposition, document generation, function integration, complexity scaling,
and localized deployment. This enables the creation of high-quality training
environments that provide detailed and measurable feedback without relying on
external tools. Additionally, we introduce a verifiable reward mechanism that
evaluates both the precision of tool use and the completeness of task
execution. When combined with trajectory data collected from the constructed
environments, this mechanism integrates seamlessly with standard RL algorithms
to facilitate feedback-driven model training. Experiments on LLMs of varying
scales demonstrate that our approach significantly enhances the models'
tool-use performance without degrading their general capabilities, regardless
of inference modes or training algorithms. Our analysis suggests that these
gains result from improved context understanding and reasoning, driven by
updates to the lower-layer MLP parameters in models.