Große Sprachmodelle als Zero-Shot-Dialogzustandsverfolger durch Funktionsaufrufe
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
Autoren: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden in Konversationssystemen zunehmend verbreitet, da sie ein fortgeschrittenes Verständnis und generative Fähigkeiten in allgemeinen Kontexten aufweisen. Ihre Effektivität in aufgabenorientierten Dialogen (TOD), die nicht nur die Generierung von Antworten, sondern auch eine effektive Dialogzustandsverfolgung (DST) innerhalb spezifischer Aufgaben und Domänen erfordern, bleibt jedoch weniger zufriedenstellend. In dieser Arbeit schlagen wir einen neuartigen Ansatz, FnCTOD, zur Lösung von DST mit LLMs durch Funktionsaufrufe vor. Diese Methode verbessert das Zero-Shot-DST und ermöglicht die Anpassung an verschiedene Domänen ohne umfangreiche Datensammlung oder Modellanpassung. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz mit sowohl moderat großen Open-Source- als auch proprietären LLMs außergewöhnliche Leistungen erzielt: Mit In-Context-Prompting ermöglicht er verschiedenen 7B- oder 13B-Parameter-Modellen, den bisherigen Stand der Technik (SOTA), der von ChatGPT erreicht wurde, zu übertreffen, und verbessert die Leistung von ChatGPT, indem er den SOTA um 5,6 % Avg. JGA übertrifft. Die individuellen Modellergebnisse für GPT-3.5 und GPT-4 werden um 4,8 % bzw. 14 % gesteigert. Wir zeigen auch, dass durch Feinabstimmung auf eine kleine Sammlung vielfältiger aufgabenorientierter Dialoge bescheidene Modelle, speziell ein 13B-Parameter-LLaMA2-Chat-Modell, mit Funktionsaufruf-Fähigkeiten und DST-Leistungen ausgestattet werden können, die mit ChatGPT vergleichbar sind, während ihre Chat-Fähigkeiten erhalten bleiben. Wir planen, den experimentellen Code und das Modell zu veröffentlichen.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.Summary
AI-Generated Summary