LoopTool: Замыкание цикла данных и обучения для надежных вызовов инструментов в больших языковых моделях
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
November 12, 2025
Авторы: Kangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu
cs.AI
Аннотация
Расширение возможностей больших языковых моделей (LLM) за счет подключения внешних инструментов позволяет им выполнять сложные многошаговые задачи. Однако обучение работе с инструментами затрудняется статичными синтетическими конвейерами данных, в которых генерация данных и обучение модели выполняются как два раздельных, невзаимодействующих процесса. Такой подход не позволяет адаптивно фокусироваться на конкретных слабых местах модели и допускает сохранение зашумленных меток, что снижает эффективность обучения. Мы представляем LoopTool — полностью автоматизированную framework эволюции данных, учитывающую особенности модели, которая замыкает этот цикл за счет тесной интеграции синтеза данных и обучения модели. LoopTool итеративно улучшает как данные, так и модель с помощью трех синергетических модулей: (1) Жадно-поисковое зондирование возможностей (GCP) диагностирует освоенные и проблемные навыки модели; (2) Проверка меток с управляющим суждением (JGLV) использует открытую модель-арбитр для поиска и исправления ошибок аннотации, постепенно очищая набор данных; и (3) Ошибко-ориентированное расширение данных (EDDE) генерирует новые сложные примеры на основе выявленных неудач. Этот замкнутый цикл функционирует в рамках экономичной экосистемы с открытым исходным кодом, устраняя зависимость от дорогостоящих закрытых API. Эксперименты показывают, что наша 8-миллиардная модель, обученная с помощью LoopTool, значительно превосходит свой 32-миллиардный генератор данных и устанавливает новые рекорды на benchmarks BFCL-v3 и ACEBench для своего масштаба. Наша работа демонстрирует, что замкнутые, самоусовершенствующиеся конвейеры данных могут кардинально улучшить способности LLM к использованию инструментов.
English
Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.