単一のモデルがマルチターン会話とツール使用の両方を習得できるか? CALM:統合型会話エージェント言語モデル
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
February 12, 2025
著者: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
要旨
API呼び出し機能を備えた大規模言語モデル(LLM)は、効果的な言語エージェント(LA)の構築を可能にし、従来のタスク指向対話(TOD)パラダイムを革新しました。しかし、現在のアプローチは重大なジレンマに直面しています。TODシステムは、限られたターゲットAPIのセットでトレーニングされることが多く、新しいサービスとインターフェースする際に品質を維持するためには新しいデータが必要です。一方、LAはマルチターン会話でユーザーの意図を維持するようにはトレーニングされていません。堅牢なマルチターン管理と高度な関数呼び出しの両方が効果的な会話エージェントにとって重要であるため、これら3つの人気ベンチマークでこれらのスキルを評価します:MultiWOZ 2.4(TOD)、BFCL V3(LA)、およびAPI-Bank(LA)。分析の結果、専門的なアプローチは一つの領域では優れているが、他の領域ではパフォーマンスが低いことが明らかになりました。このギャップを埋めるために、会話能力とエージェント能力の両方を統合した統一アプローチであるCALM(Conversational Agentic Language Model)を導入します。マルチターンのReAct推論と複雑なAPI使用を交互に織り込んだ慎重に構築されたマルチタスクデータセットであるCALM-ITを作成しました。CALM-ITを使用して、CALM 8B、CALM 70B、およびCALM 405Bの3つのモデルをトレーニングし、これらはGPT-4oを含むトップのドメイン固有モデルをすべての3つのベンチマークで上回りました。
English
Large Language Models (LLMs) with API-calling capabilities enabled building
effective Language Agents (LA), while also revolutionizing the conventional
task-oriented dialogue (TOD) paradigm. However, current approaches face a
critical dilemma: TOD systems are often trained on a limited set of target
APIs, requiring new data to maintain their quality when interfacing with new
services, while LAs are not trained to maintain user intent over multi-turn
conversations. Because both robust multi-turn management and advanced function
calling are crucial for effective conversational agents, we evaluate these
skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and
API-Bank (LA), and our analyses reveal that specialized approaches excel in one
domain but underperform in the other. To bridge this chasm, we introduce CALM
(Conversational Agentic Language Model), a unified approach that integrates
both conversational and agentic capabilities. We created CALM-IT, a carefully
constructed multi-task dataset that interleave multi-turn ReAct reasoning with
complex API usage. Using CALM-IT, we train three models CALM 8B, CALM 70B, and
CALM 405B, which outperform top domain-specific models, including GPT-4o,
across all three benchmarks.Summary
AI-Generated Summary