Um Único Modelo Pode Dominar Tanto Conversas Multi-turn Quanto o Uso de Ferramentas? CALM: Um Modelo de Linguagem Agente Conversacional Unificado
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
February 12, 2025
Autores: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) com capacidades de chamada de API permitiram a construção de Agentes de Linguagem (LA) eficazes, ao mesmo tempo em que revolucionaram o paradigma convencional de diálogo orientado a tarefas (TOD). No entanto, as abordagens atuais enfrentam um dilema crítico: os sistemas TOD são frequentemente treinados em um conjunto limitado de APIs-alvo, exigindo novos dados para manter sua qualidade ao interagir com novos serviços, enquanto os LAs não são treinados para manter a intenção do usuário em conversas de múltiplos turnos. Como tanto o gerenciamento robusto de múltiplos turnos quanto a chamada avançada de funções são cruciais para agentes conversacionais eficazes, avaliamos essas habilidades em três benchmarks populares: MultiWOZ 2.4 (TOD), BFCL V3 (LA) e API-Bank (LA), e nossas análises revelam que abordagens especializadas se destacam em um domínio, mas têm desempenho inferior no outro. Para preencher essa lacuna, introduzimos o CALM (Modelo de Linguagem Agente Conversacional), uma abordagem unificada que integra capacidades conversacionais e agentivas. Criamos o CALM-IT, um conjunto de dados multitarefa cuidadosamente construído que intercala raciocínio ReAct de múltiplos turnos com o uso complexo de APIs. Usando o CALM-IT, treinamos três modelos: CALM 8B, CALM 70B e CALM 405B, que superam os principais modelos específicos de domínio, incluindo o GPT-4o, em todos os três benchmarks.
English
Large Language Models (LLMs) with API-calling capabilities enabled building
effective Language Agents (LA), while also revolutionizing the conventional
task-oriented dialogue (TOD) paradigm. However, current approaches face a
critical dilemma: TOD systems are often trained on a limited set of target
APIs, requiring new data to maintain their quality when interfacing with new
services, while LAs are not trained to maintain user intent over multi-turn
conversations. Because both robust multi-turn management and advanced function
calling are crucial for effective conversational agents, we evaluate these
skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and
API-Bank (LA), and our analyses reveal that specialized approaches excel in one
domain but underperform in the other. To bridge this chasm, we introduce CALM
(Conversational Agentic Language Model), a unified approach that integrates
both conversational and agentic capabilities. We created CALM-IT, a carefully
constructed multi-task dataset that interleave multi-turn ReAct reasoning with
complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and
CALM 405B, which outperform top domain-specific models, including GPT-4o,
across all three benchmarks.Summary
AI-Generated Summary