I grandi modelli linguistici come tracker dello stato del dialogo zero-shot attraverso il richiamo di funzioni

Abstract

I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più diffusi nei sistemi conversazionali grazie alla loro avanzata capacità di comprensione e generazione in contesti generali. Tuttavia, la loro efficacia nei dialoghi orientati al compito (TOD), che richiedono non solo la generazione di risposte ma anche un efficace tracciamento dello stato del dialogo (DST) all'interno di compiti e domini specifici, rimane meno soddisfacente. In questo lavoro, proponiamo un nuovo approccio chiamato FnCTOD per risolvere il DST con gli LLM attraverso il richiamo di funzioni. Questo metodo migliora il DST zero-shot, consentendo l'adattamento a diversi domini senza la necessità di un'ampia raccolta di dati o di un'ottimizzazione del modello. I nostri risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni eccezionali sia con modelli open-source di dimensioni modeste che con modelli proprietari: con il prompting in-context, consente a vari modelli da 7B o 13B parametri di superare il precedente stato dell'arte (SOTA) raggiunto da ChatGPT e migliora le prestazioni di ChatGPT, superando il SOTA del 5,6% in media JGA. I risultati individuali per GPT-3.5 e GPT-4 sono aumentati rispettivamente del 4,8% e del 14%. Mostriamo inoltre che, attraverso il fine-tuning su una piccola raccolta di dialoghi orientati al compito, è possibile dotare modelli di dimensioni modeste, in particolare un modello LLaMA2-Chat da 13B parametri, di capacità di richiamo di funzioni e prestazioni DST paragonabili a ChatGPT, mantenendo le loro capacità di chat. Prevediamo di rendere open-source il codice sperimentale e il modello.

English

Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA. Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modestly sized models, specifically a 13B parameter LLaMA2-Chat model, with function-calling capabilities and DST performance comparable to ChatGPT while maintaining their chat capabilities. We plan to open-source experimental code and model.

I grandi modelli linguistici come tracker dello stato del dialogo zero-shot attraverso il richiamo di funzioni

Large Language Models as Zero-shot Dialogue State Tracker through Function Calling

Abstract

Support