함수 호출을 통한 제로샷 대화 상태 추적기로서의 대형 언어 모델
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
February 16, 2024
저자: Zekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook
cs.AI
초록
대규모 언어 모델(LLMs)은 일반적인 맥락에서의 고급 이해 및 생성 능력으로 인해 대화 시스템에서 점점 더 널리 사용되고 있다. 그러나 특정 작업과 도메인 내에서 응답 생성뿐만 아니라 효과적인 대화 상태 추적(DST)을 요구하는 작업 지향 대화(TOD)에서의 효과성은 여전히 만족스럽지 못하다. 본 연구에서는 함수 호출을 통해 LLMs로 DST를 해결하기 위한 새로운 접근 방식인 FnCTOD를 제안한다. 이 방법은 제로샷 DST를 개선하여 광범위한 데이터 수집이나 모델 튜닝 없이 다양한 도메인에 적응할 수 있도록 한다. 우리의 실험 결과는 이 접근 방식이 적당한 크기의 오픈소스 및 독점 LLMs 모두에서 탁월한 성능을 달성함을 보여준다: 컨텍스트 내 프롬프팅을 통해 다양한 7B 또는 13B 파라미터 모델이 ChatGPT에 의해 달성된 이전의 최첨단(SOTA)을 능가하게 하며, ChatGPT의 성능을 5.6% Avg. JGA로 향상시켜 SOTA를 능가한다. GPT-3.5와 GPT-4의 개별 모델 결과는 각각 4.8%와 14% 향상된다. 또한 다양한 작업 지향 대화의 소규모 데이터셋에 대한 미세 조정을 통해, 특히 13B 파라미터 LLaMA2-Chat 모델에 함수 호출 기능과 ChatGPT에 필적하는 DST 성능을 부여하면서도 채팅 기능을 유지할 수 있음을 보여준다. 우리는 실험 코드와 모델을 오픈소스로 공개할 계획이다.
English
Large language models (LLMs) are increasingly prevalent in conversational
systems due to their advanced understanding and generative capabilities in
general contexts. However, their effectiveness in task-oriented dialogues
(TOD), which requires not only response generation but also effective dialogue
state tracking (DST) within specific tasks and domains, remains less
satisfying. In this work, we propose a novel approach FnCTOD for solving DST
with LLMs through function calling. This method improves zero-shot DST,
allowing adaptation to diverse domains without extensive data collection or
model tuning. Our experimental results demonstrate that our approach achieves
exceptional performance with both modestly sized open-source and also
proprietary LLMs: with in-context prompting it enables various 7B or 13B
parameter models to surpass the previous state-of-the-art (SOTA) achieved by
ChatGPT, and improves ChatGPT's performance beating the SOTA by 5.6% Avg. JGA.
Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%,
respectively. We also show that by fine-tuning on a small collection of diverse
task-oriented dialogues, we can equip modestly sized models, specifically a 13B
parameter LLaMA2-Chat model, with function-calling capabilities and DST
performance comparable to ChatGPT while maintaining their chat capabilities. We
plan to open-source experimental code and model.Summary
AI-Generated Summary