Disambiguatie-gerichte finetuning maakt enterprise tool-aanroepende LLM's realistischer en minder risicovol.
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
July 4, 2025
Auteurs: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI
Samenvatting
Grote taalmodellen (LLMs) worden steeds vaker ingezet voor het aanroepen van enterprise-API's, maar ze falen regelmatig wanneer bijna-identieke tools strijden om dezelfde gebruikersintentie of wanneer vereiste argumenten onvoldoende gespecificeerd zijn. Wij introduceren DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), een op disambiguatie gerichte, driedelige pijplijn die (i) persona-gedreven, meerzijdige dialogen synthetiseert waarin de assistent onderscheid moet maken tussen sterk gelijkende tools, (ii) supervised fine-tuning uitvoert van open-source modellen met redeneersporen over 3B - 70B parameters, en (iii) de real-world gereedheid evalueert via een dynamische suite die elk model opnieuw inzet in een live agentische lus en end-to-end doelvoltooiing rapporteert naast conventionele statische metrieken. Op onze dynamische benchmark DiaBENCH verhogen modellen getraind met DiaFORGE het succes van tool-aanroepingen met 27 procentpunt ten opzichte van GPT-4o en met 49 procentpunt ten opzichte van Claude-3.5-Sonnet, beide onder geoptimaliseerde prompting. Om verder onderzoek te stimuleren, publiceren we een open corpus van 5000 productieklare enterprise-API-specificaties, gekoppeld aan rigoureus gevalideerde, op disambiguatie gerichte dialogen, wat een praktische blauwdruk biedt voor het bouwen van betrouwbare, enterprise-ready tool-aanroepende agents.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise
APIs, yet they routinely falter when near-duplicate tools vie for the same user
intent or when required arguments are left underspecified. We introduce
DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a
disambiguation-centric, three-stage pipeline that (i) synthesizes
persona-driven, multi-turn dialogues in which the assistant must distinguish
among highly similar tools, (ii) performs supervised fine-tuning of open-source
models with reasoning traces across 3B - 70B parameters, and (iii) evaluates
real-world readiness via a dynamic suite that redeploys each model in a live
agentic loop and reports end-to-end goal completion alongside conventional
static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE
raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over
Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we
release an open corpus of 5000 production-grade enterprise API specifications
paired with rigorously validated, disambiguation-focused dialogues, offering a
practical blueprint for building reliable, enterprise-ready tool-calling
agents.