LoopTool : Fermer la boucle données-entraînement pour des appels d'outils robustes dans les LLM

papers.abstract

L'augmentation des grands modèles de langage (LLM) avec des outils externes leur permet d'exécuter des tâches complexes à multiples étapes. Cependant, l'apprentissage d'outils est entravé par des pipelines de données synthétiques statiques où la génération de données et l'entraînement du modèle sont exécutés comme deux processus séparés et non interactifs. Cette approche ne permet pas de se concentrer de manière adaptative sur les faiblesses spécifiques d'un modèle et laisse persister des annotations bruitées, ce qui dégrade l'efficacité de l'entraînement. Nous présentons LoopTool, un cadre d'évolution des données entièrement automatisé et conscient du modèle, qui boucle cette boucle en intégrant étroitement la synthèse des données et l'entraînement du modèle. LoopTool affine itérativement à la fois les données et le modèle grâce à trois modules synergiques : (1) le Sondage Glouton des Capacités (GCP) diagnostique les capacités maîtrisées et défaillantes du modèle ; (2) la Vérification des Étiquettes Guidée par un Juge (JGLV) utilise un modèle juge open source pour détecter et corriger les erreurs d'annotation, purifiant progressivement le jeu de données ; et (3) l'Expansion des Données Pilotée par les Erreurs (EDDE) génère de nouveaux échantillons difficiles basés sur les échecs identifiés. Ce processus en boucle fermée opère au sein d'un écosystème open source économique, éliminant la dépendance aux API propriétaires coûteuses. Les expériences montrent que notre modèle de 8B entraîné avec LoopTool surpasse significativement son générateur de données de 32B et obtient de nouveaux résultats state-of-the-art sur les benchmarks BFCL-v3 et ACEBench pour son échelle. Notre travail démontre que les pipelines de données en boucle fermée et auto-affinées peuvent considérablement améliorer les capacités d'utilisation d'outils des LLM.

English

Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.

LoopTool : Fermer la boucle données-entraînement pour des appels d'outils robustes dans les LLM

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

papers.abstract

Support