ChatPaper.aiChatPaper

Feedback-gestuurde verbeteringen in gereedschapsgebruik bij grote taalmodellen via geautomatiseerde bouwomgevingen

Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

August 12, 2025
Auteurs: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
cs.AI

Samenvatting

Effectief gebruik van tools is essentieel voor grote taalmodelen (LLMs) om betekenisvol te interacteren met hun omgeving. Vooruitgang wordt echter beperkt door het ontbreken van efficiënte reinforcement learning (RL) frameworks die specifiek zijn ontworpen voor toolgebruik, vanwege uitdagingen bij het opzetten van stabiele trainingsomgevingen en het ontwerpen van verifieerbare beloningsmechanismen. Om dit aan te pakken, stellen we een geautomatiseerde pijplijn voor omgevingconstructie voor, die scenario-decompositie, documentgeneratie, functie-integratie, complexiteitsschaalbaarheid en gelokaliseerde implementatie omvat. Dit maakt het mogelijk om hoogwaardige trainingsomgevingen te creëren die gedetailleerde en meetbare feedback bieden zonder afhankelijk te zijn van externe tools. Daarnaast introduceren we een verifieerbaar beloningsmechanisme dat zowel de precisie van toolgebruik als de volledigheid van taakuitvoering evalueert. Wanneer dit wordt gecombineerd met trajectgegevens die zijn verzameld uit de geconstrueerde omgevingen, integreert dit mechanisme naadloos met standaard RL-algoritmen om feedback-gestuurde modeltraining te faciliteren. Experimenten met LLMs van verschillende schalen tonen aan dat onze aanpak de toolgebruikprestaties van de modellen aanzienlijk verbetert zonder hun algemene capaciteiten aan te tasten, ongeacht de inferentiemodi of trainingsalgoritmen. Onze analyse suggereert dat deze verbeteringen het gevolg zijn van een beter begrip van context en redenering, gedreven door updates aan de MLP-parameters in de onderste lagen van de modellen.
English
Effective tool use is essential for large language models (LLMs) to interact meaningfully with their environment. However, progress is limited by the lack of efficient reinforcement learning (RL) frameworks specifically designed for tool use, due to challenges in constructing stable training environments and designing verifiable reward mechanisms. To address this, we propose an automated environment construction pipeline, incorporating scenario decomposition, document generation, function integration, complexity scaling, and localized deployment. This enables the creation of high-quality training environments that provide detailed and measurable feedback without relying on external tools. Additionally, we introduce a verifiable reward mechanism that evaluates both the precision of tool use and the completeness of task execution. When combined with trajectory data collected from the constructed environments, this mechanism integrates seamlessly with standard RL algorithms to facilitate feedback-driven model training. Experiments on LLMs of varying scales demonstrate that our approach significantly enhances the models' tool-use performance without degrading their general capabilities, regardless of inference modes or training algorithms. Our analysis suggests that these gains result from improved context understanding and reasoning, driven by updates to the lower-layer MLP parameters in models.
PDF162August 13, 2025