ChatPaper.aiChatPaper

Miglioramenti guidati dal feedback nell'uso degli strumenti nei modelli linguistici di grandi dimensioni tramite ambienti di compilazione automatizzati

Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

August 12, 2025
Autori: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
cs.AI

Abstract

L'uso efficace degli strumenti è essenziale affinché i grandi modelli linguistici (LLM) interagiscano in modo significativo con il loro ambiente. Tuttavia, i progressi sono limitati dalla mancanza di framework di apprendimento per rinforzo (RL) efficienti specificamente progettati per l'uso di strumenti, a causa delle difficoltà nella costruzione di ambienti di formazione stabili e nella progettazione di meccanismi di ricompensa verificabili. Per affrontare questo problema, proponiamo una pipeline automatizzata per la costruzione di ambienti, che incorpora la scomposizione degli scenari, la generazione di documenti, l'integrazione di funzioni, la scalabilità della complessità e il deployment localizzato. Ciò consente la creazione di ambienti di formazione di alta qualità che forniscono feedback dettagliato e misurabile senza fare affidamento su strumenti esterni. Inoltre, introduciamo un meccanismo di ricompensa verificabile che valuta sia la precisione nell'uso degli strumenti sia la completezza dell'esecuzione del compito. Quando combinato con i dati di traiettoria raccolti dagli ambienti costruiti, questo meccanismo si integra perfettamente con gli algoritmi RL standard per facilitare la formazione del modello guidata dal feedback. Esperimenti su LLM di diverse dimensioni dimostrano che il nostro approccio migliora significativamente le prestazioni nell'uso degli strumenti dei modelli senza degradare le loro capacità generali, indipendentemente dalle modalità di inferenza o dagli algoritmi di formazione. La nostra analisi suggerisce che questi miglioramenti derivano da una migliore comprensione del contesto e dal ragionamento, guidati dagli aggiornamenti dei parametri MLP negli strati inferiori dei modelli.
English
Effective tool use is essential for large language models (LLMs) to interact meaningfully with their environment. However, progress is limited by the lack of efficient reinforcement learning (RL) frameworks specifically designed for tool use, due to challenges in constructing stable training environments and designing verifiable reward mechanisms. To address this, we propose an automated environment construction pipeline, incorporating scenario decomposition, document generation, function integration, complexity scaling, and localized deployment. This enables the creation of high-quality training environments that provide detailed and measurable feedback without relying on external tools. Additionally, we introduce a verifiable reward mechanism that evaluates both the precision of tool use and the completeness of task execution. When combined with trajectory data collected from the constructed environments, this mechanism integrates seamlessly with standard RL algorithms to facilitate feedback-driven model training. Experiments on LLMs of varying scales demonstrate that our approach significantly enhances the models' tool-use performance without degrading their general capabilities, regardless of inference modes or training algorithms. Our analysis suggests that these gains result from improved context understanding and reasoning, driven by updates to the lower-layer MLP parameters in models.
PDF162August 13, 2025