ChatPaper.aiChatPaper

Disambiguierungszentriertes Feintuning macht unternehmensbezogene Tool-Aufruf-LLMs realistischer und weniger riskant.

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

July 4, 2025
Autoren: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend damit beauftragt, Unternehmens-APIs aufzurufen, scheitern jedoch häufig, wenn nahezu identische Tools um dieselbe Benutzerabsicht konkurrieren oder wenn erforderliche Argumente unzureichend spezifiziert sind. Wir stellen DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation) vor, eine dreistufige Pipeline mit Schwerpunkt auf Disambiguierung, die (i) persona-gesteuerte, mehrschrittige Dialoge synthetisiert, in denen der Assistent zwischen sehr ähnlichen Tools unterscheiden muss, (ii) ein überwachtes Fein-Tuning von Open-Source-Modellen mit Reasoning-Traces über 3B bis 70B Parameter durchführt und (iii) die Einsatzbereitschaft in der Praxis über eine dynamische Testsuite bewertet, die jedes Modell in einer aktiven agentenbasierten Schleife neu einsetzt und die Zielerreichung end-to-end neben konventionellen statischen Metriken berichtet. Auf unserem dynamischen Benchmark DiaBENCH steigern mit DiaFORGE trainierte Modelle die Erfolgsrate beim Tool-Aufruf um 27 Prozentpunkte gegenüber GPT-4o und um 49 Prozentpunkte gegenüber Claude-3.5-Sonnet, jeweils unter optimierter Prompting-Strategie. Um weitere Forschung zu fördern, veröffentlichen wir ein offenes Korpus von 5000 produktionsreifen Unternehmens-API-Spezifikationen, gepaart mit rigoros validierten, disambiguierungsfokussierten Dialogen, und bieten damit einen praktischen Leitfaden für den Aufbau zuverlässiger, unternehmensfähiger Tool-Calling-Agenten.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.
PDF11July 8, 2025