ChatPaper.aiChatPaper

L'ottimizzazione focalizzata sulla disambiguazione rende i modelli linguistici per il richiamo di strumenti aziendali più realistici e meno rischiosi.

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

July 4, 2025
Autori: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più chiamati a invocare API aziendali, ma spesso falliscono quando strumenti quasi duplicati competono per la stessa intenzione dell'utente o quando gli argomenti richiesti sono lasciati sottospecificati. Introduciamo DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), una pipeline a tre fasi incentrata sulla disambiguazione che (i) sintetizza dialoghi multi-turn guidati da una persona in cui l'assistente deve distinguere tra strumenti altamente simili, (ii) esegue un fine-tuning supervisionato di modelli open-source con tracce di ragionamento su un range di parametri da 3B a 70B, e (iii) valuta la prontezza per il mondo reale attraverso una suite dinamica che ridistribuisce ciascun modello in un ciclo agente attivo e riporta il completamento end-to-end degli obiettivi insieme a metriche statiche convenzionali. Sul nostro benchmark dinamico DiaBENCH, i modelli addestrati con DiaFORGE aumentano il successo nell'invocazione degli strumenti del 27% rispetto a GPT-4o e del 49% rispetto a Claude-3.5-Sonnet, entrambi sotto prompt ottimizzati. Per stimolare ulteriori ricerche, rilasciamo un corpus aperto di 5000 specifiche API aziendali di livello produttivo accoppiate a dialoghi rigorosamente validati e focalizzati sulla disambiguazione, offrendo una guida pratica per costruire agenti affidabili e pronti per l'uso aziendale.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.
PDF51July 8, 2025