L'affinage centré sur la désambiguïsation rend les LLM d'appel d'outils d'entreprise plus réalistes et moins risqués
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
July 4, 2025
Auteurs: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont de plus en plus sollicités pour invoquer des API d'entreprise, mais ils échouent souvent lorsque des outils quasi-identiques rivalisent pour la même intention utilisateur ou lorsque les arguments requis sont insuffisamment spécifiés. Nous présentons DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), un pipeline en trois étapes centré sur la désambiguïsation qui (i) synthétise des dialogues multi-tours pilotés par des personas dans lesquels l'assistant doit distinguer des outils très similaires, (ii) effectue un fine-tuning supervisé de modèles open-source avec des traces de raisonnement sur des plages de 3B à 70B paramètres, et (iii) évalue la préparation au monde réel via une suite dynamique qui redéploie chaque modèle dans une boucle agentique en temps réel et rapporte l'achèvement des objectifs de bout en bout ainsi que des métriques statiques conventionnelles. Sur notre benchmark dynamique DiaBENCH, les modèles entraînés avec DiaFORGE augmentent le taux de réussite d'invocation d'outils de 27 points de pourcentage par rapport à GPT-4o et de 49 points par rapport à Claude-3.5-Sonnet, tous deux sous des prompts optimisés. Pour stimuler la recherche, nous publions un corpus ouvert de 5000 spécifications d'API d'entreprise de qualité production, accompagnées de dialogues rigoureusement validés et axés sur la désambiguïsation, offrant ainsi un plan pratique pour construire des agents d'appel d'outils fiables et prêts pour l'entreprise.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise
APIs, yet they routinely falter when near-duplicate tools vie for the same user
intent or when required arguments are left underspecified. We introduce
DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a
disambiguation-centric, three-stage pipeline that (i) synthesizes
persona-driven, multi-turn dialogues in which the assistant must distinguish
among highly similar tools, (ii) performs supervised fine-tuning of open-source
models with reasoning traces across 3B - 70B parameters, and (iii) evaluates
real-world readiness via a dynamic suite that redeploys each model in a live
agentic loop and reports end-to-end goal completion alongside conventional
static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE
raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over
Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we
release an open corpus of 5000 production-grade enterprise API specifications
paired with rigorously validated, disambiguation-focused dialogues, offering a
practical blueprint for building reliable, enterprise-ready tool-calling
agents.