LoopTool: Cerrando el Ciclo de Datos-Entrenamiento para Llamadas a Herramientas Robustas en LLM

Resumen

El aumento de los Modelos de Lenguaje a Gran Escala (LLMs) con herramientas externas les permite ejecutar tareas complejas y multi-etapa. Sin embargo, el aprendizaje de herramientas se ve obstaculizado por las canalizaciones de datos sintéticos estáticas, donde la generación de datos y el entrenamiento del modelo se ejecutan como dos procesos separados y no interactivos. Este enfoque no logra centrarse de forma adaptativa en las debilidades específicas del modelo y permite que persistan etiquetas ruidosas, degradando la eficiencia del entrenamiento. Presentamos LoopTool, un marco de evolución de datos completamente automatizado y consciente del modelo que cierra este bucle integrando estrechamente la síntesis de datos y el entrenamiento del modelo. LoopTool refina iterativamente tanto los datos como el modelo a través de tres módulos sinérgicos: (1) la Exploración Codiciosa de Capacidades (GCP) diagnostica las capacidades dominadas y fallidas del modelo; (2) la Verificación de Etiquetas Guiada por Juicio (JGLV) utiliza un modelo juez de código abierto para encontrar y corregir errores de anotación, purificando progresivamente el conjunto de datos; y (3) la Expansión de Datos Basada en Errores (EDDE) genera nuevas muestras desafiantes basadas en los fallos identificados. Este proceso de bucle cerrado opera dentro de un ecosistema económico y de código abierto, eliminando la dependencia de costosas APIs de código cerrado. Los experimentos muestran que nuestro modelo de 8B entrenado con LoopTool supera significativamente a su generador de datos de 32B y logra nuevos resultados de vanguardia en los benchmarks BFCL-v3 y ACEBench para su escala. Nuestro trabajo demuestra que las canalizaciones de datos de auto-refinamiento en bucle cerrado pueden mejorar drásticamente las capacidades de uso de herramientas de los LLMs.

English

Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.

LoopTool: Cerrando el Ciclo de Datos-Entrenamiento para Llamadas a Herramientas Robustas en LLM

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Resumen

Support