ChatPaper.aiChatPaper

自動化されたビルド環境を介した大規模言語モデルのフィードバック駆動型ツール使用改善

Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

August 12, 2025
著者: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
cs.AI

要旨

大規模言語モデル(LLMs)が環境と有意義に相互作用するためには、効果的なツール使用が不可欠である。しかし、安定した訓練環境の構築や検証可能な報酬メカニズムの設計における課題から、ツール使用に特化した効率的な強化学習(RL)フレームワークの進展は限られている。この問題に対処するため、我々はシナリオ分解、ドキュメント生成、関数統合、複雑度スケーリング、ローカルデプロイメントを組み込んだ自動化された環境構築パイプラインを提案する。これにより、外部ツールに依存せずに詳細かつ測定可能なフィードバックを提供する高品質な訓練環境の作成が可能となる。さらに、ツール使用の精度とタスク実行の完全性を評価する検証可能な報酬メカニズムを導入する。構築された環境から収集された軌跡データと組み合わせることで、このメカニズムは標準的なRLアルゴリズムとシームレスに統合され、フィードバック駆動型のモデル訓練を促進する。様々な規模のLLMsを用いた実験により、推論モードや訓練アルゴリズムに関わらず、本手法がモデルの一般的な能力を損なうことなくツール使用性能を大幅に向上させることが示された。分析の結果、これらの向上はモデルの下位層MLPパラメータの更新によってもたらされる文脈理解と推論能力の改善に起因することが示唆される。
English
Effective tool use is essential for large language models (LLMs) to interact meaningfully with their environment. However, progress is limited by the lack of efficient reinforcement learning (RL) frameworks specifically designed for tool use, due to challenges in constructing stable training environments and designing verifiable reward mechanisms. To address this, we propose an automated environment construction pipeline, incorporating scenario decomposition, document generation, function integration, complexity scaling, and localized deployment. This enables the creation of high-quality training environments that provide detailed and measurable feedback without relying on external tools. Additionally, we introduce a verifiable reward mechanism that evaluates both the precision of tool use and the completeness of task execution. When combined with trajectory data collected from the constructed environments, this mechanism integrates seamlessly with standard RL algorithms to facilitate feedback-driven model training. Experiments on LLMs of varying scales demonstrate that our approach significantly enhances the models' tool-use performance without degrading their general capabilities, regardless of inference modes or training algorithms. Our analysis suggests that these gains result from improved context understanding and reasoning, driven by updates to the lower-layer MLP parameters in models.
PDF132August 13, 2025