Тонкая настройка с акцентом на устранение неоднозначностей делает корпоративные LLM с функцией вызова инструментов более реалистичными и менее рискованными
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
July 4, 2025
Авторы: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber
cs.AI
Аннотация
Крупные языковые модели (LLMs) всё чаще используются для вызова корпоративных API, однако они регулярно допускают ошибки, когда несколько почти идентичных инструментов конкурируют за одно и то же намерение пользователя или когда требуемые аргументы недостаточно специфицированы. Мы представляем DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation) — трёхэтапный конвейер, ориентированный на устранение неоднозначностей, который (i) синтезирует персонализированные многоходовые диалоги, в которых ассистент должен различать высоко схожие инструменты, (ii) выполняет контролируемое тонкое обучение моделей с открытым исходным кодом, включая трассировку рассуждений для моделей с параметрами от 3B до 70B, и (iii) оценивает готовность к реальным задачам с помощью динамического набора тестов, который повторно развёртывает каждую модель в активном агентском цикле и сообщает о завершении целей от начала до конца наряду с традиционными статическими метриками. На нашем динамическом бенчмарке DiaBENCH модели, обученные с использованием DiaFORGE, повышают успешность вызова инструментов на 27 процентных пунктов по сравнению с GPT-4o и на 49 процентных пунктов по сравнению с Claude-3.5-Sonnet, оба при оптимизированных подсказках. Для стимулирования дальнейших исследований мы публикуем открытый корпус из 5000 спецификаций корпоративных API производственного уровня, дополненных тщательно проверенными диалогами, ориентированными на устранение неоднозначностей, предлагая практическое руководство для создания надёжных агентов, готовых к использованию в корпоративной среде.
English
Large language models (LLMs) are increasingly tasked with invoking enterprise
APIs, yet they routinely falter when near-duplicate tools vie for the same user
intent or when required arguments are left underspecified. We introduce
DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a
disambiguation-centric, three-stage pipeline that (i) synthesizes
persona-driven, multi-turn dialogues in which the assistant must distinguish
among highly similar tools, (ii) performs supervised fine-tuning of open-source
models with reasoning traces across 3B - 70B parameters, and (iii) evaluates
real-world readiness via a dynamic suite that redeploys each model in a live
agentic loop and reports end-to-end goal completion alongside conventional
static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE
raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over
Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we
release an open corpus of 5000 production-grade enterprise API specifications
paired with rigorously validated, disambiguation-focused dialogues, offering a
practical blueprint for building reliable, enterprise-ready tool-calling
agents.