Modelos de Linguagem de Grande Escala como Rastreadores de Estado de Diálogo Zero-shot por meio de Chamada de Função
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
Autores: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) estão se tornando cada vez mais prevalentes em sistemas conversacionais devido à sua compreensão avançada e capacidades generativas em contextos gerais. No entanto, sua eficácia em diálogos orientados por tarefas (TOD), que exigem não apenas a geração de respostas, mas também o rastreamento eficaz do estado do diálogo (DST) dentro de tarefas e domínios específicos, permanece menos satisfatória. Neste trabalho, propomos uma nova abordagem, FnCTOD, para resolver o DST com LLMs por meio de chamadas de função. Esse método melhora o DST zero-shot, permitindo a adaptação a diversos domínios sem a necessidade de coleta extensiva de dados ou ajuste do modelo. Nossos resultados experimentais demonstram que nossa abordagem alcança um desempenho excepcional tanto com modelos de código aberto de tamanho modesto quanto com modelos proprietários: com prompts no contexto, ela permite que vários modelos de 7B ou 13B parâmetros superem o estado da arte (SOTA) anterior alcançado pelo ChatGPT e melhora o desempenho do ChatGPT, superando o SOTA em 5,6% de JGA médio. Os resultados individuais para GPT-3.5 e GPT-4 são impulsionados em 4,8% e 14%, respectivamente. Também mostramos que, ao ajustar finamente uma pequena coleção de diálogos orientados por tarefas diversos, podemos equipar modelos de tamanho modesto, especificamente um modelo LLaMA2-Chat de 13B parâmetros, com capacidades de chamada de função e desempenho de DST comparável ao ChatGPT, mantendo suas capacidades de chat. Planejamos disponibilizar o código experimental e o modelo em código aberto.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.