Может ли одна модель овладеть как многоходовыми диалогами, так и использованием инструментов? CALM: Унифицированная агентская языковая модель для диалогов
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
February 12, 2025
Авторы: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Аннотация
Крупные языковые модели (LLM) с возможностью вызова API позволили создавать эффективные языковые агенты (LA), одновременно революционизируя традиционную парадигму целеориентированного диалога (TOD). Однако современные подходы сталкиваются с критической дилеммой: системы TOD часто обучаются на ограниченном наборе целевых API, требуя новых данных для поддержания качества при взаимодействии с новыми сервисами, в то время как LA не обучаются для сохранения намерений пользователя в многоходовых диалогах. Поскольку как устойчивое управление многоходовыми диалогами, так и продвинутый вызов функций являются ключевыми для эффективных диалоговых агентов, мы оцениваем эти навыки на трех популярных бенчмарках: MultiWOZ 2.4 (TOD), BFCL V3 (LA) и API-Bank (LA). Наш анализ показывает, что специализированные подходы преуспевают в одной области, но уступают в другой. Чтобы преодолеть этот разрыв, мы представляем CALM (Conversational Agentic Language Model) — унифицированный подход, объединяющий как диалоговые, так и агентские возможности. Мы создали CALM-IT, тщательно разработанный мультизадачный набор данных, который сочетает многоходовое рассуждение ReAct с использованием сложных API. Используя CALM-IT, мы обучаем три модели: CALM 8B, CALM 70B и CALM 405B, которые превосходят лучшие специализированные модели, включая GPT-4o, на всех трех бенчмарках.
English
Large Language Models (LLMs) with API-calling capabilities enabled building
effective Language Agents (LA), while also revolutionizing the conventional
task-oriented dialogue (TOD) paradigm. However, current approaches face a
critical dilemma: TOD systems are often trained on a limited set of target
APIs, requiring new data to maintain their quality when interfacing with new
services, while LAs are not trained to maintain user intent over multi-turn
conversations. Because both robust multi-turn management and advanced function
calling are crucial for effective conversational agents, we evaluate these
skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and
API-Bank (LA), and our analyses reveal that specialized approaches excel in one
domain but underperform in the other. To bridge this chasm, we introduce CALM
(Conversational Agentic Language Model), a unified approach that integrates
both conversational and agentic capabilities. We created CALM-IT, a carefully
constructed multi-task dataset that interleave multi-turn ReAct reasoning with
complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and
CALM 405B, which outperform top domain-specific models, including GPT-4o,
across all three benchmarks.Summary
AI-Generated Summary