자동화된 빌드 환경을 통한 대규모 언어 모델의 피드백 기반 도구 사용 개선
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
August 12, 2025
저자: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
cs.AI
초록
효율적인 도구 사용은 대규모 언어 모델(LLM)이 환경과 의미 있게 상호작용하기 위해 필수적이다. 그러나 안정적인 훈련 환경 구축과 검증 가능한 보상 메커니즘 설계의 어려움으로 인해, 도구 사용에 특화된 효율적인 강화 학습(RL) 프레임워크의 개발은 제한적이다. 이를 해결하기 위해, 우리는 시나리오 분해, 문서 생성, 기능 통합, 복잡성 조정, 그리고 지역적 배포를 포함한 자동화된 환경 구축 파이프라인을 제안한다. 이는 외부 도구에 의존하지 않으면서도 상세하고 측정 가능한 피드백을 제공하는 고품질의 훈련 환경을 생성할 수 있게 한다. 또한, 도구 사용의 정확성과 작업 실행의 완전성을 평가하는 검증 가능한 보상 메커니즘을 도입한다. 이 메커니즘은 구축된 환경에서 수집된 궤적 데이터와 결합되어 표준 RL 알고리즘과 원활하게 통합되며, 피드백 기반 모델 훈련을 촉진한다. 다양한 규모의 LLM에 대한 실험 결과, 우리의 접근법은 추론 모드나 훈련 알고리즘에 관계없이 모델의 일반적인 능력을 저하시키지 않으면서 도구 사용 성능을 크게 향상시킴을 보여준다. 우리의 분석은 이러한 성능 향상이 모델의 하위 계층 MLP 매개변수 업데이트에 의해 촉진된 문맥 이해와 추론 능력의 개선에서 비롯됨을 시사한다.
English
Effective tool use is essential for large language models (LLMs) to interact
meaningfully with their environment. However, progress is limited by the lack
of efficient reinforcement learning (RL) frameworks specifically designed for
tool use, due to challenges in constructing stable training environments and
designing verifiable reward mechanisms. To address this, we propose an
automated environment construction pipeline, incorporating scenario
decomposition, document generation, function integration, complexity scaling,
and localized deployment. This enables the creation of high-quality training
environments that provide detailed and measurable feedback without relying on
external tools. Additionally, we introduce a verifiable reward mechanism that
evaluates both the precision of tool use and the completeness of task
execution. When combined with trajectory data collected from the constructed
environments, this mechanism integrates seamlessly with standard RL algorithms
to facilitate feedback-driven model training. Experiments on LLMs of varying
scales demonstrate that our approach significantly enhances the models'
tool-use performance without degrading their general capabilities, regardless
of inference modes or training algorithms. Our analysis suggests that these
gains result from improved context understanding and reasoning, driven by
updates to the lower-layer MLP parameters in models.