ChatPaper.aiChatPaper

O Ajuste Fino Centrado na Desambiguação Torna os LLMs de Chamada de Ferramentas Empresariais Mais Realistas e Menos Arriscados

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

July 4, 2025
Autores: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais encarregados de invocar APIs empresariais, mas frequentemente falham quando ferramentas quase duplicadas competem pela mesma intenção do usuário ou quando argumentos necessários são deixados subespecificados. Apresentamos o DiaFORGE (Framework de Diálogo para Geração e Avaliação de Resposta Orgânica), um pipeline de três etapas centrado na desambiguação que (i) sintetiza diálogos de múltiplas voltas orientados por persona, nos quais o assistente deve distinguir entre ferramentas altamente semelhantes, (ii) realiza ajuste fino supervisionado de modelos de código aberto com rastreamentos de raciocínio em escalas de 3B a 70B parâmetros, e (iii) avalia a prontidão para o mundo real por meio de um conjunto dinâmico que reimplanta cada modelo em um loop agente ativo e relata a conclusão de metas de ponta a ponta juntamente com métricas estáticas convencionais. Em nosso benchmark dinâmico DiaBENCH, modelos treinados com o DiaFORGE aumentam a taxa de sucesso na invocação de ferramentas em 27 pp em relação ao GPT-4o e em 49 pp em relação ao Claude-3.5-Sonnet, ambos sob prompts otimizados. Para estimular pesquisas adicionais, disponibilizamos um corpus aberto de 5000 especificações de APIs empresariais de nível de produção, emparelhadas com diálogos rigorosamente validados e focados em desambiguação, oferecendo um plano prático para a construção de agentes confiáveis e prontos para o ambiente empresarial que realizam chamadas de ferramentas.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.
PDF41July 8, 2025