Feedback-gestuurde verbeteringen in gereedschapsgebruik bij grote taalmodellen via geautomatiseerde bouwomgevingen
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
August 12, 2025
Auteurs: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
cs.AI
Samenvatting
Effectief gebruik van tools is essentieel voor grote taalmodelen (LLMs) om betekenisvol te interacteren met hun omgeving. Vooruitgang wordt echter beperkt door het ontbreken van efficiënte reinforcement learning (RL) frameworks die specifiek zijn ontworpen voor toolgebruik, vanwege uitdagingen bij het opzetten van stabiele trainingsomgevingen en het ontwerpen van verifieerbare beloningsmechanismen. Om dit aan te pakken, stellen we een geautomatiseerde pijplijn voor omgevingconstructie voor, die scenario-decompositie, documentgeneratie, functie-integratie, complexiteitsschaalbaarheid en gelokaliseerde implementatie omvat. Dit maakt het mogelijk om hoogwaardige trainingsomgevingen te creëren die gedetailleerde en meetbare feedback bieden zonder afhankelijk te zijn van externe tools. Daarnaast introduceren we een verifieerbaar beloningsmechanisme dat zowel de precisie van toolgebruik als de volledigheid van taakuitvoering evalueert. Wanneer dit wordt gecombineerd met trajectgegevens die zijn verzameld uit de geconstrueerde omgevingen, integreert dit mechanisme naadloos met standaard RL-algoritmen om feedback-gestuurde modeltraining te faciliteren. Experimenten met LLMs van verschillende schalen tonen aan dat onze aanpak de toolgebruikprestaties van de modellen aanzienlijk verbetert zonder hun algemene capaciteiten aan te tasten, ongeacht de inferentiemodi of trainingsalgoritmen. Onze analyse suggereert dat deze verbeteringen het gevolg zijn van een beter begrip van context en redenering, gedreven door updates aan de MLP-parameters in de onderste lagen van de modellen.
English
Effective tool use is essential for large language models (LLMs) to interact
meaningfully with their environment. However, progress is limited by the lack
of efficient reinforcement learning (RL) frameworks specifically designed for
tool use, due to challenges in constructing stable training environments and
designing verifiable reward mechanisms. To address this, we propose an
automated environment construction pipeline, incorporating scenario
decomposition, document generation, function integration, complexity scaling,
and localized deployment. This enables the creation of high-quality training
environments that provide detailed and measurable feedback without relying on
external tools. Additionally, we introduce a verifiable reward mechanism that
evaluates both the precision of tool use and the completeness of task
execution. When combined with trajectory data collected from the constructed
environments, this mechanism integrates seamlessly with standard RL algorithms
to facilitate feedback-driven model training. Experiments on LLMs of varying
scales demonstrate that our approach significantly enhances the models'
tool-use performance without degrading their general capabilities, regardless
of inference modes or training algorithms. Our analysis suggests that these
gains result from improved context understanding and reasoning, driven by
updates to the lower-layer MLP parameters in models.