Grote Taalmodellen als Zero-shot Dialoogstatustracker via Functie-aanroepen
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
Auteurs: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) worden steeds vaker gebruikt in conversatiesystemen vanwege hun geavanceerde begrip en generatieve mogelijkheden in algemene contexten. Hun effectiviteit in taakgerichte dialogen (TOD), waarbij niet alleen responsgeneratie maar ook effectieve dialoogstatustracking (DST) binnen specifieke taken en domeinen vereist is, blijft echter minder bevredigend. In dit werk stellen we een nieuwe benadering voor, FnCTOD, om DST op te lossen met LLMs via functieaanroepen. Deze methode verbetert zero-shot DST, waardoor aanpassing aan diverse domeinen mogelijk is zonder uitgebreide gegevensverzameling of modelafstemming. Onze experimentele resultaten tonen aan dat onze aanpak uitzonderlijke prestaties levert met zowel bescheiden open-source als propriëtaire LLMs: met in-context prompting stelt het verschillende 7B of 13B parameter modellen in staat om de vorige state-of-the-art (SOTA) behaald door ChatGPT te overtreffen, en verbetert het de prestaties van ChatGPT door de SOTA met 5,6% Avg. JGA te verslaan. Individuele modelresultaten voor GPT-3.5 en GPT-4 worden respectievelijk met 4,8% en 14% verhoogd. We tonen ook aan dat door fine-tuning op een kleine verzameling diverse taakgerichte dialogen, we bescheiden modellen, specifiek een 13B parameter LLaMA2-Chat model, kunnen uitrusten met functieaanroepmogelijkheden en DST-prestaties die vergelijkbaar zijn met ChatGPT, terwijl hun chatmogelijkheden behouden blijven. We zijn van plan om de experimentele code en het model open source te maken.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.