LoopTool: 강력한 LLM 도구 호출을 위한 데이터-훈련 순환 완성
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
November 12, 2025
저자: Kangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu
cs.AI
초록
외부 도구를 활용한 대규모 언어 모델(LLM) 증강은 복잡한 다단계 작업 실행을 가능하게 합니다. 그러나 도구 학습은 데이터 생성과 모델 훈련이 별개이며 상호작용이 없는 정적 합성 데이터 파이프라인으로 인해 제약을 받고 있습니다. 이러한 접근 방식은 모델의 특정 약점에 적응적으로 집중하지 못하며 노이즈 레이블이 지속되어 훈련 효율성을 저하시킵니다. 본 연구에서는 데이터 합성과 모델 훈련을 긴밀하게 통합하여 이 순환을 폐쇄하는 완전 자동화된 모델 인식 데이터 진화 프레임워크인 LoopTool을 소개합니다. LoopTool은 세 가지 상호 보완적 모듈을 통해 데이터와 모델을 반복적으로 정제합니다: (1) Greedy Capability Probing(GCP)은 모델이 숙달한 능력과 실패한 능력을 진단합니다; (2) Judgement-Guided Label Verification(JGLV)은 오픈소스 판단 모델을 사용하여 주석 오류를 찾아 수정함으로써 데이터셋을 점진적으로 정제합니다; (3) Error-Driven Data Expansion(EDDE)은 식별된 실패 사례를 바탕으로 새로운 도전적인 샘플을 생성합니다. 이 폐쇄형 순환 과정은 비용 효율적인 오픈소스 생태계 내에서 운영되어 고가의 폐쇄형 API에 대한 의존성을 제거합니다. 실험 결과, LoopTool로 훈련된 우리의 8B 모델은 32B 데이터 생성기를 크게 능가하며 해당 규모에서 BFCL-v3 및 ACEBench 벤치마크에서 새로운 최첨단 성과를 달성했습니다. 우리의 작업은 폐쇄형 자기 정제 데이터 파이프라인이 LLM의 도구 사용 능력을 극적으로 향상시킬 수 있음을 입증합니다.
English
Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.