Um Único Modelo Pode Dominar Tanto Conversas Multi-turn Quanto o Uso de Ferramentas? CALM: Um Modelo de Linguagem Agente Conversacional Unificado

Resumo

Modelos de Linguagem de Grande Escala (LLMs) com capacidades de chamada de API permitiram a construção de Agentes de Linguagem (LA) eficazes, ao mesmo tempo em que revolucionaram o paradigma convencional de diálogo orientado a tarefas (TOD). No entanto, as abordagens atuais enfrentam um dilema crítico: os sistemas TOD são frequentemente treinados em um conjunto limitado de APIs-alvo, exigindo novos dados para manter sua qualidade ao interagir com novos serviços, enquanto os LAs não são treinados para manter a intenção do usuário em conversas de múltiplos turnos. Como tanto o gerenciamento robusto de múltiplos turnos quanto a chamada avançada de funções são cruciais para agentes conversacionais eficazes, avaliamos essas habilidades em três benchmarks populares: MultiWOZ 2.4 (TOD), BFCL V3 (LA) e API-Bank (LA), e nossas análises revelam que abordagens especializadas se destacam em um domínio, mas têm desempenho inferior no outro. Para preencher essa lacuna, introduzimos o CALM (Modelo de Linguagem Agente Conversacional), uma abordagem unificada que integra capacidades conversacionais e agentivas. Criamos o CALM-IT, um conjunto de dados multitarefa cuidadosamente construído que intercala raciocínio ReAct de múltiplos turnos com o uso complexo de APIs. Usando o CALM-IT, treinamos três modelos: CALM 8B, CALM 70B e CALM 405B, que superam os principais modelos específicos de domínio, incluindo o GPT-4o, em todos os três benchmarks.

English

Large Language Models (LLMs) with API-calling capabilities enabled building effective Language Agents (LA), while also revolutionizing the conventional task-oriented dialogue (TOD) paradigm. However, current approaches face a critical dilemma: TOD systems are often trained on a limited set of target APIs, requiring new data to maintain their quality when interfacing with new services, while LAs are not trained to maintain user intent over multi-turn conversations. Because both robust multi-turn management and advanced function calling are crucial for effective conversational agents, we evaluate these skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and API-Bank (LA), and our analyses reveal that specialized approaches excel in one domain but underperform in the other. To bridge this chasm, we introduce CALM (Conversational Agentic Language Model), a unified approach that integrates both conversational and agentic capabilities. We created CALM-IT, a carefully constructed multi-task dataset that interleave multi-turn ReAct reasoning with complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and CALM 405B, which outperform top domain-specific models, including GPT-4o, across all three benchmarks.

Um Único Modelo Pode Dominar Tanto Conversas Multi-turn Quanto o Uso de Ferramentas? CALM: Um Modelo de Linguagem Agente Conversacional Unificado

Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

Resumo

Support