LoopTool: Fechando o Ciclo Dados-Treinamento para Chamadas Robustas de Ferramentas em LLMs
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
November 12, 2025
Autores: Kangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu
cs.AI
Resumo
Aumentar os Grandes Modelos de Linguagem (LLMs) com ferramentas externas permite que eles executem tarefas complexas e multi-etapas. No entanto, a aprendizagem de ferramentas é dificultada pelos pipelines de dados sintéticos estáticos, onde a geração de dados e o treinamento do modelo são executados como dois processos separados e não interativos. Essa abordagem não consegue focar adaptativamente nas fraquezas específicas de um modelo e permite que rótulos ruidosos persistam, degradando a eficiência do treinamento. Apresentamos o LoopTool, uma estrutura de evolução de dados totalmente automatizada e consciente do modelo que fecha esse ciclo, integrando estreitamente a síntese de dados e o treinamento do modelo. O LoopTool refina iterativamente tanto os dados quanto o modelo por meio de três módulos sinérgicos: (1) a Sondagem de Capacidade Gulosa (GCP) diagnostica as capacidades dominadas e as falhas do modelo; (2) a Verificação de Rótulos Guiada por Julgamento (JGLV) usa um modelo juiz de código aberto para encontrar e corrigir erros de anotação, purificando progressivamente o conjunto de dados; e (3) a Expansão de Dados Orientada a Erros (EDDE) gera novas amostras desafiadoras com base nas falhas identificadas. Este processo de ciclo fechado opera dentro de um ecossistema econômico e de código aberto, eliminando a dependência de APIs caras e de código fechado. Experimentos mostram que nosso modelo de 8B treinado com LoopTool supera significativamente seu gerador de dados de 32B e alcança novos resultados state-of-the-art nas benchmarks BFCL-v3 e ACEBench para a sua escala. Nosso trabalho demonstra que pipelines de dados de ciclo fechado e auto-refinamento podem melhorar drasticamente as capacidades de uso de ferramentas dos LLMs.
English
Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.