¿Puede un solo modelo dominar tanto las conversaciones multiturno como el uso de herramientas? CALM: Un modelo de lenguaje conversacional agéntico unificado
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
February 12, 2025
Autores: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) con capacidades de llamadas a API han permitido la creación de Agentes de Lenguaje (LA) efectivos, al mismo tiempo que han revolucionado el paradigma convencional de diálogo orientado a tareas (TOD). Sin embargo, los enfoques actuales enfrentan un dilema crítico: los sistemas TOD suelen entrenarse con un conjunto limitado de API objetivo, requiriendo nuevos datos para mantener su calidad al interactuar con nuevos servicios, mientras que los LA no están entrenados para mantener la intención del usuario en conversaciones de múltiples turnos. Dado que tanto la gestión robusta de múltiples turnos como la llamada avanzada a funciones son cruciales para agentes conversacionales efectivos, evaluamos estas habilidades en tres puntos de referencia populares: MultiWOZ 2.4 (TOD), BFCL V3 (LA) y API-Bank (LA), y nuestros análisis revelan que los enfoques especializados sobresalen en un dominio pero tienen un rendimiento inferior en el otro. Para cerrar esta brecha, presentamos CALM (Modelo de Lenguaje Agéntico Conversacional), un enfoque unificado que integra tanto capacidades conversacionales como agénticas. Creamos CALM-IT, un conjunto de datos multitarea cuidadosamente construido que entrelaza razonamiento ReAct de múltiples turnos con el uso complejo de API. Utilizando CALM-IT, entrenamos tres modelos: CALM 8B, CALM 70B y CALM 405B, los cuales superan a los mejores modelos específicos de dominio, incluyendo GPT-4o, en los tres puntos de referencia.
English
Large Language Models (LLMs) with API-calling capabilities enabled building
effective Language Agents (LA), while also revolutionizing the conventional
task-oriented dialogue (TOD) paradigm. However, current approaches face a
critical dilemma: TOD systems are often trained on a limited set of target
APIs, requiring new data to maintain their quality when interfacing with new
services, while LAs are not trained to maintain user intent over multi-turn
conversations. Because both robust multi-turn management and advanced function
calling are crucial for effective conversational agents, we evaluate these
skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and
API-Bank (LA), and our analyses reveal that specialized approaches excel in one
domain but underperform in the other. To bridge this chasm, we introduce CALM
(Conversational Agentic Language Model), a unified approach that integrates
both conversational and agentic capabilities. We created CALM-IT, a carefully
constructed multi-task dataset that interleave multi-turn ReAct reasoning with
complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and
CALM 405B, which outperform top domain-specific models, including GPT-4o,
across all three benchmarks.Summary
AI-Generated Summary