Les grands modèles de langage comme suiveurs d'état de dialogue en zero-shot via l'appel de fonctions
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
Auteurs: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont de plus en plus répandus dans les systèmes conversationnels en raison de leurs capacités avancées de compréhension et de génération dans des contextes généraux. Cependant, leur efficacité dans les dialogues orientés tâches (TOD), qui nécessitent non seulement la génération de réponses mais aussi un suivi efficace de l'état du dialogue (DST) dans des tâches et domaines spécifiques, reste moins satisfaisante. Dans ce travail, nous proposons une nouvelle approche, FnCTOD, pour résoudre le DST avec les LLMs via l'appel de fonctions. Cette méthode améliore le DST en zero-shot, permettant une adaptation à divers domaines sans collecte de données extensive ou réglage du modèle. Nos résultats expérimentaux démontrent que notre approche atteint des performances exceptionnelles avec des LLMs open-source de taille modeste ainsi que des LLMs propriétaires : avec un prompting en contexte, elle permet à divers modèles de 7B ou 13B paramètres de surpasser l'état de l'art (SOTA) précédent atteint par ChatGPT, et améliore les performances de ChatGPT en battant le SOTA de 5,6 % en JGA moyen. Les résultats individuels pour GPT-3.5 et GPT-4 sont boostés de 4,8 % et 14 %, respectivement. Nous montrons également qu'en effectuant un fine-tuning sur un petit ensemble de dialogues orientés tâches diversifiés, nous pouvons équiper des modèles de taille modeste, en particulier un modèle LLaMA2-Chat de 13B paramètres, de capacités d'appel de fonctions et de performances DST comparables à ChatGPT tout en conservant leurs capacités conversationnelles. Nous prévoyons d'ouvrir le code expérimental et le modèle en open-source.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.Summary
AI-Generated Summary