I grandi modelli linguistici come tracker dello stato del dialogo zero-shot attraverso il richiamo di funzioni
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
Autori: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più diffusi nei sistemi conversazionali grazie alla loro avanzata capacità di comprensione e generazione in contesti generali. Tuttavia, la loro efficacia nei dialoghi orientati al compito (TOD), che richiedono non solo la generazione di risposte ma anche un efficace tracciamento dello stato del dialogo (DST) all'interno di compiti e domini specifici, rimane meno soddisfacente. In questo lavoro, proponiamo un nuovo approccio chiamato FnCTOD per risolvere il DST con gli LLM attraverso il richiamo di funzioni. Questo metodo migliora il DST zero-shot, consentendo l'adattamento a diversi domini senza la necessità di un'ampia raccolta di dati o di un'ottimizzazione del modello. I nostri risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni eccezionali sia con modelli open-source di dimensioni modeste che con modelli proprietari: con il prompting in-context, consente a vari modelli da 7B o 13B parametri di superare il precedente stato dell'arte (SOTA) raggiunto da ChatGPT e migliora le prestazioni di ChatGPT, superando il SOTA del 5,6% in media JGA. I risultati individuali per GPT-3.5 e GPT-4 sono aumentati rispettivamente del 4,8% e del 14%. Mostriamo inoltre che, attraverso il fine-tuning su una piccola raccolta di dialoghi orientati al compito, è possibile dotare modelli di dimensioni modeste, in particolare un modello LLaMA2-Chat da 13B parametri, di capacità di richiamo di funzioni e prestazioni DST paragonabili a ChatGPT, mantenendo le loro capacità di chat. Prevediamo di rendere open-source il codice sperimentale e il modello.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.