명확성 중심 미세 조정이 기업용 도구 호출 LLM을 더 현실적이고 덜 위험하게 만듭니다
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
July 4, 2025
저자: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI
초록
대형 언어 모델(LLMs)은 기업용 API를 호출하는 작업을 점점 더 많이 수행하고 있지만, 거의 동일한 도구들이 동일한 사용자 의도를 대상으로 경쟁하거나 필수 인자가 불충분하게 지정될 경우 종종 실패합니다. 우리는 DiaFORGE(Dialogue Framework for Organic Response Generation & Evaluation)를 소개합니다. 이는 명확화 중심의 3단계 파이프라인으로, (i) 어시스턴트가 매우 유사한 도구들을 구분해야 하는 페르소나 기반의 다중 턴 대화를 합성하고, (ii) 3B에서 70B 파라미터에 걸친 오픈소스 모델을 추론 흔적을 포함한 지도 학습으로 미세 조정하며, (iii) 동적 평가 스위트를 통해 각 모델을 실시간 에이전트 루프에 재배치하고 종단 간 목표 달성률과 기존의 정적 지표를 보고합니다. 우리의 동적 벤치마크 DiaBENCH에서, DiaFORGE로 훈련된 모델들은 최적화된 프롬프팅 하에서 GPT-4o 대비 27%p, Claude-3.5-Sonnet 대비 49%p 더 높은 도구 호출 성공률을 보였습니다. 추가 연구를 촉진하기 위해, 우리는 5000개의 프로덕션 등급 기업용 API 명세와 엄격하게 검증된 명확화 중심 대화를 포함한 오픈 코퍼스를 공개하여, 신뢰할 수 있는 기업용 도구 호출 에이전트를 구축하기 위한 실용적인 청사진을 제공합니다.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise
APIs, yet they routinely falter when near-duplicate tools vie for the same user
intent or when required arguments are left underspecified. We introduce
DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a
disambiguation-centric, three-stage pipeline that (i) synthesizes
persona-driven, multi-turn dialogues in which the assistant must distinguish
among highly similar tools, (ii) performs supervised fine-tuning of open-source
models with reasoning traces across 3B - 70B parameters, and (iii) evaluates
real-world readiness via a dynamic suite that redeploys each model in a live
agentic loop and reports end-to-end goal completion alongside conventional
static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE
raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over
Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we
release an open corpus of 5000 production-grade enterprise API specifications
paired with rigorously validated, disambiguation-focused dialogues, offering a
practical blueprint for building reliable, enterprise-ready tool-calling
agents.