L'affinage centré sur la désambiguïsation rend les LLM d'appel d'outils d'entreprise plus réalistes et moins risqués

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus sollicités pour invoquer des API d'entreprise, mais ils échouent souvent lorsque des outils quasi-identiques rivalisent pour la même intention utilisateur ou lorsque les arguments requis sont insuffisamment spécifiés. Nous présentons DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), un pipeline en trois étapes centré sur la désambiguïsation qui (i) synthétise des dialogues multi-tours pilotés par des personas dans lesquels l'assistant doit distinguer des outils très similaires, (ii) effectue un fine-tuning supervisé de modèles open-source avec des traces de raisonnement sur des plages de 3B à 70B paramètres, et (iii) évalue la préparation au monde réel via une suite dynamique qui redéploie chaque modèle dans une boucle agentique en temps réel et rapporte l'achèvement des objectifs de bout en bout ainsi que des métriques statiques conventionnelles. Sur notre benchmark dynamique DiaBENCH, les modèles entraînés avec DiaFORGE augmentent le taux de réussite d'invocation d'outils de 27 points de pourcentage par rapport à GPT-4o et de 49 points par rapport à Claude-3.5-Sonnet, tous deux sous des prompts optimisés. Pour stimuler la recherche, nous publions un corpus ouvert de 5000 spécifications d'API d'entreprise de qualité production, accompagnées de dialogues rigoureusement validés et axés sur la désambiguïsation, offrant ainsi un plan pratique pour construire des agents d'appel d'outils fiables et prêts pour l'entreprise.

English

Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.

L'affinage centré sur la désambiguïsation rend les LLM d'appel d'outils d'entreprise plus réalistes et moins risqués

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Résumé

Support