ChatPaper.aiChatPaper

LoopTool: Chiudere il Ciclo Dati-Addestramento per Chiamate Robuste a Strumenti nei LLM

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

November 12, 2025
Autori: Kangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu
cs.AI

Abstract

L'integrazione di strumenti esterni nei Large Language Model (LLM) consente loro di eseguire compiti complessi e multi-step. Tuttavia, l'apprendimento di strumenti è ostacolato dalle pipeline di dati sintetici statiche, in cui la generazione dei dati e l'addestramento del modello vengono eseguiti come due processi separati e non interattivi. Questo approccio non riesce a concentrarsi adattivamente sulle specifiche carenze di un modello e permette a etichette rumorose di persistere, degradando l'efficienza dell'addestramento. Introduciamo LoopTool, un framework di evoluzione dei dati completamente automatizzato e consapevole del modello, che chiude questo ciclo integrando strettamente la sintesi dei dati e l'addestramento del modello. LoopTool affina iterativamente sia i dati che il modello attraverso tre moduli sinergici: (1) il Greedy Capability Probing (GCP) diagnostica le capacità padroneggiate e fallite dal modello; (2) il Judgement-Guided Label Verification (JGLV) utilizza un modello giudice open-source per individuare e correggere gli errori di annotazione, purificando progressivamente il dataset; e (3) l'Error-Driven Data Expansion (EDDE) genera nuovi campioni impegnativi basandosi sugli errori identificati. Questo processo a ciclo chiuso opera all'interno di un ecosistema economico e open-source, eliminando la dipendenza da costose API closed-source. Gli esperimenti mostrano che il nostro modello da 8B addestrato con LoopTool supera significativamente il suo generatore di dati da 32B e raggiunge nuovi risultati state-of-the-art sui benchmark BFCL-v3 e ACEBench per la sua scala. Il nostro lavoro dimostra che pipeline di dati a ciclo chiuso e auto-affinanti possono potenziare notevolmente le capacità di utilizzo di strumenti degli LLM.
English
Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.
PDF162December 1, 2025