Kann ein einziges Modell sowohl mehrschrittige Konversationen als auch Werkzeugnutzung beherrschen? CALM: Ein einheitliches konversationelles agentenbasiertes Sprachmodell
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
February 12, 2025
Autoren: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) mit API-Aufruf-Fähigkeiten ermöglichten die Entwicklung effektiver Sprachagenten (LA) und revolutionierten gleichzeitig das herkömmliche Paradigma der aufgabenorientierten Dialoge (TOD). Aktuelle Ansätze stehen jedoch vor einem kritischen Dilemma: TOD-Systeme werden oft auf einer begrenzten Menge von Ziel-APIs trainiert, was neue Daten erfordert, um ihre Qualität bei der Interaktion mit neuen Diensten aufrechtzuerhalten, während LAs nicht darauf trainiert sind, die Benutzerabsicht über mehrfache Dialogwechsel hinweg beizubehalten. Da sowohl robustes Management von Mehrfachdialogen als auch fortgeschrittene Funktionsaufrufe für effektive Konversationsagenten entscheidend sind, bewerten wir diese Fähigkeiten anhand von drei beliebten Benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA) und API-Bank (LA). Unsere Analysen zeigen, dass spezialisierte Ansätze in einem Bereich hervorragend abschneiden, im anderen jedoch unterdurchschnittlich performen. Um diese Kluft zu überbrücken, stellen wir CALM (Conversational Agentic Language Model) vor, einen einheitlichen Ansatz, der sowohl konversationelle als auch agentische Fähigkeiten integriert. Wir haben CALM-IT erstellt, einen sorgfältig konstruierten Multi-Task-Datensatz, der mehrfache ReAct-Schlussfolgerungen mit komplexer API-Nutzung verknüpft. Mit CALM-IT trainieren wir drei Modelle: CALM 8B, CALM 70B und CALM 405B, die in allen drei Benchmarks, einschließlich GPT-4o, die leistungsstärksten domänenspezifischen Modelle übertreffen.
English
Large Language Models (LLMs) with API-calling capabilities enabled building
effective Language Agents (LA), while also revolutionizing the conventional
task-oriented dialogue (TOD) paradigm. However, current approaches face a
critical dilemma: TOD systems are often trained on a limited set of target
APIs, requiring new data to maintain their quality when interfacing with new
services, while LAs are not trained to maintain user intent over multi-turn
conversations. Because both robust multi-turn management and advanced function
calling are crucial for effective conversational agents, we evaluate these
skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and
API-Bank (LA), and our analyses reveal that specialized approaches excel in one
domain but underperform in the other. To bridge this chasm, we introduce CALM
(Conversational Agentic Language Model), a unified approach that integrates
both conversational and agentic capabilities. We created CALM-IT, a carefully
constructed multi-task dataset that interleave multi-turn ReAct reasoning with
complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and
CALM 405B, which outperform top domain-specific models, including GPT-4o,
across all three benchmarks.Summary
AI-Generated Summary