ChatPaper.aiChatPaper

El ajuste fino centrado en la desambiguación hace que los LLM de llamada a herramientas empresariales sean más realistas y menos riesgosos.

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

July 4, 2025
Autores: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más utilizados para invocar APIs empresariales, aunque a menudo fallan cuando herramientas casi idénticas compiten por la misma intención del usuario o cuando los argumentos requeridos están insuficientemente especificados. Presentamos DiaFORGE (Marco de Diálogo para la Generación y Evaluación de Respuestas Orgánicas), una canalización de tres etapas centrada en la desambiguación que (i) sintetiza diálogos de múltiples turnos basados en personajes, en los que el asistente debe distinguir entre herramientas altamente similares, (ii) realiza un ajuste fino supervisado de modelos de código abierto con trazas de razonamiento que abarcan desde 3B hasta 70B parámetros, y (iii) evalúa la preparación para el mundo real mediante un conjunto dinámico que redespiega cada modelo en un bucle agente en vivo y reporta la finalización de objetivos de extremo a extremo junto con métricas estáticas convencionales. En nuestro punto de referencia dinámico DiaBENCH, los modelos entrenados con DiaFORGE aumentan el éxito en la invocación de herramientas en 27 puntos porcentuales (pp) sobre GPT-4o y en 49 pp sobre Claude-3.5-Sonnet, ambos bajo indicaciones optimizadas. Para fomentar más investigación, publicamos un corpus abierto de 5000 especificaciones de APIs empresariales de grado de producción, emparejadas con diálogos rigurosamente validados y enfocados en la desambiguación, ofreciendo un plan práctico para construir agentes confiables y listos para entornos empresariales que invocan herramientas.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.
PDF11July 8, 2025