LoopTool: Schließen der Daten-Trainings-Schleife für robuste LLM-Werkzeugaufrufe

papers.abstract

Die Erweiterung großer Sprachmodelle (LLMs) mit externen Werkzeugen ermöglicht ihnen die Ausführung komplexer, mehrstufiger Aufgaben. Allerdings wird das Werkzeuglernen durch statische synthetische Datenpipelines behindert, bei denen Datengenerierung und Modelltraining als zwei separate, nicht-interaktive Prozesse ablaufen. Dieser Ansatz kann sich nicht adaptiv auf die spezifischen Schwächen eines Modells konzentrieren und lässt verrauschte Labels bestehen, was die Trainingseffizienz beeinträchtigt. Wir stellen LoopTool vor, einen vollständig automatisierten, modellbewussten Datenentwicklungsrahmen, der diese Lücke schließt, indem er Datensynthese und Modelltraining eng verzahnt. LoopTool verbessert iterativ sowohl die Daten als auch das Modell durch drei synergetische Module: (1) Greedy Capability Probing (GCP) diagnostiziert die erlernten und fehlgeschlagenen Fähigkeiten des Modells; (2) Judgement-Guided Label Verification (JGLV) nutzt ein Open-Source-Bewertungsmodell, um Annotationsfehler zu finden und zu korrigieren und reinigt so den Datensatz sukzessive; und (3) Error-Driven Data Expansion (EDDE) generiert neue, anspruchsvolle Beispiele basierend auf identifizierten Fehlern. Dieser geschlossene Regelkreis operiert innerhalb einer kosteneffizienten Open-Source-Infrastruktur und beseitigt die Abhängigkeit von teuren Closed-Source-APIs. Experimente zeigen, dass unser mit LoopTool trainiertes 8B-Modell sein 32B-Datengenerator-Modell signifikant übertrifft und neue State-of-the-Art-Ergebnisse auf den Benchmarks BFCL-v3 und ACEBench für seine Skalierung erreicht. Unsere Arbeit demonstriert, dass geschlossene, sich selbst verfeinernde Datenpipelines die Werkzeugnutzungsfähigkeiten von LLMs dramatisch steigern können.

English

Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.

LoopTool: Schließen der Daten-Trainings-Schleife für robuste LLM-Werkzeugaufrufe

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

papers.abstract

Support