Les grands modèles de langage comme suiveurs d'état de dialogue en zero-shot via l'appel de fonctions

papers.abstract

Les grands modèles de langage (LLMs) sont de plus en plus répandus dans les systèmes conversationnels en raison de leurs capacités avancées de compréhension et de génération dans des contextes généraux. Cependant, leur efficacité dans les dialogues orientés tâches (TOD), qui nécessitent non seulement la génération de réponses mais aussi un suivi efficace de l'état du dialogue (DST) dans des tâches et domaines spécifiques, reste moins satisfaisante. Dans ce travail, nous proposons une nouvelle approche, FnCTOD, pour résoudre le DST avec les LLMs via l'appel de fonctions. Cette méthode améliore le DST en zero-shot, permettant une adaptation à divers domaines sans collecte de données extensive ou réglage du modèle. Nos résultats expérimentaux démontrent que notre approche atteint des performances exceptionnelles avec des LLMs open-source de taille modeste ainsi que des LLMs propriétaires : avec un prompting en contexte, elle permet à divers modèles de 7B ou 13B paramètres de surpasser l'état de l'art (SOTA) précédent atteint par ChatGPT, et améliore les performances de ChatGPT en battant le SOTA de 5,6 % en JGA moyen. Les résultats individuels pour GPT-3.5 et GPT-4 sont boostés de 4,8 % et 14 %, respectivement. Nous montrons également qu'en effectuant un fine-tuning sur un petit ensemble de dialogues orientés tâches diversifiés, nous pouvons équiper des modèles de taille modeste, en particulier un modèle LLaMA2-Chat de 13B paramètres, de capacités d'appel de fonctions et de performances DST comparables à ChatGPT tout en conservant leurs capacités conversationnelles. Nous prévoyons d'ouvrir le code expérimental et le modèle en open-source.

English

Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA. Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modestly sized models, specifically a 13B parameter LLaMA2-Chat model, with function-calling capabilities and DST performance comparable to ChatGPT while maintaining their chat capabilities. We plan to open-source experimental code and model.

Les grands modèles de langage comme suiveurs d'état de dialogue en zero-shot via l'appel de fonctions

Large Language Models as Zero-shot Dialogue State Tracker through Function Calling

papers.abstract

Support