大規模言語モデルを関数呼び出しを通じてゼロショット対話状態トラッカーとして活用する
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
著者: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
要旨
大規模言語モデル(LLM)は、一般的な文脈における高度な理解力と生成能力により、会話システムにおいてますます普及しています。しかし、特定のタスクやドメイン内での効果的な対話状態追跡(DST)だけでなく、応答生成も要求されるタスク指向対話(TOD)におけるその有効性は、まだ十分とは言えません。本研究では、関数呼び出しを通じてLLMを用いたDSTを解決するための新しいアプローチFnCTODを提案します。この方法は、ゼロショットDSTを改善し、大規模なデータ収集やモデルチューニングなしに多様なドメインに適応することを可能にします。実験結果は、我々のアプローチが、適度なサイズのオープンソースモデルおよびプロプライエタリなLLMの両方で優れた性能を発揮することを示しています:コンテキスト内プロンプティングにより、7Bまたは13Bパラメータの様々なモデルが、ChatGPTによって達成された以前の最先端(SOTA)を上回り、ChatGPTの性能を5.6% Avg. JGAで向上させてSOTAを打ち破ります。GPT-3.5とGPT-4の個別モデル結果は、それぞれ4.8%と14%向上しました。また、多様なタスク指向対話の小さなコレクションで微調整を行うことで、特に13BパラメータのLLaMA2-Chatモデルに、関数呼び出し機能とChatGPTに匹敵するDST性能を備えさせながら、そのチャット能力を維持できることも示しています。実験コードとモデルのオープンソース化を計画しています。
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.Summary
AI-Generated Summary