Modelos de Lenguaje de Gran Escala como Rastreadores de Estado de Diálogo en Cero Disparos mediante Llamadas a Funciones
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
Autores: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más prevalentes en los sistemas conversacionales debido a su capacidad avanzada de comprensión y generación en contextos generales. Sin embargo, su efectividad en diálogos orientados a tareas (TOD, por sus siglas en inglés), que requieren no solo la generación de respuestas sino también un seguimiento efectivo del estado del diálogo (DST, por sus siglas en inglés) dentro de tareas y dominios específicos, sigue siendo menos satisfactoria. En este trabajo, proponemos un enfoque novedoso, FnCTOD, para resolver el DST con LLMs mediante el uso de llamadas a funciones. Este método mejora el DST en modo zero-shot, permitiendo la adaptación a diversos dominios sin necesidad de una recopilación extensiva de datos o ajuste del modelo. Nuestros resultados experimentales demuestran que nuestro enfoque logra un rendimiento excepcional tanto con modelos de código abierto de tamaño moderado como con modelos propietarios: con el uso de indicaciones en contexto, permite que varios modelos de 7B o 13B parámetros superen el estado del arte (SOTA, por sus siglas en inglés) anterior logrado por ChatGPT, y mejora el rendimiento de ChatGPT superando el SOTA en un 5.6% de JGA promedio. Los resultados individuales para GPT-3.5 y GPT-4 se incrementan en un 4.8% y un 14%, respectivamente. También mostramos que, al realizar un ajuste fino en una pequeña colección de diálogos orientados a tareas diversos, podemos equipar a modelos de tamaño moderado, específicamente un modelo LLaMA2-Chat de 13B parámetros, con capacidades de llamadas a funciones y un rendimiento en DST comparable al de ChatGPT, manteniendo sus capacidades conversacionales. Planeamos hacer público el código experimental y el modelo.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.