Тонкая настройка с акцентом на устранение неоднозначностей делает корпоративные LLM с функцией вызова инструментов более реалистичными и менее рискованными

Аннотация

Крупные языковые модели (LLMs) всё чаще используются для вызова корпоративных API, однако они регулярно допускают ошибки, когда несколько почти идентичных инструментов конкурируют за одно и то же намерение пользователя или когда требуемые аргументы недостаточно специфицированы. Мы представляем DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation) — трёхэтапный конвейер, ориентированный на устранение неоднозначностей, который (i) синтезирует персонализированные многоходовые диалоги, в которых ассистент должен различать высоко схожие инструменты, (ii) выполняет контролируемое тонкое обучение моделей с открытым исходным кодом, включая трассировку рассуждений для моделей с параметрами от 3B до 70B, и (iii) оценивает готовность к реальным задачам с помощью динамического набора тестов, который повторно развёртывает каждую модель в активном агентском цикле и сообщает о завершении целей от начала до конца наряду с традиционными статическими метриками. На нашем динамическом бенчмарке DiaBENCH модели, обученные с использованием DiaFORGE, повышают успешность вызова инструментов на 27 процентных пунктов по сравнению с GPT-4o и на 49 процентных пунктов по сравнению с Claude-3.5-Sonnet, оба при оптимизированных подсказках. Для стимулирования дальнейших исследований мы публикуем открытый корпус из 5000 спецификаций корпоративных API производственного уровня, дополненных тщательно проверенными диалогами, ориентированными на устранение неоднозначностей, предлагая практическое руководство для создания надёжных агентов, готовых к использованию в корпоративной среде.

English

Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.

Тонкая настройка с акцентом на устранение неоднозначностей делает корпоративные LLM с функцией вызова инструментов более реалистичными и менее рискованными

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Аннотация

Support