자기 대화를 통한 LLM 기반 작업 지향 대화 에이전트 부트스트래핑
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
저자: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 강력한 대화 에이전트이지만, 특정 기능을 수행하도록 전문화하는 것은 어려운 과제일 수 있습니다. 인간이 생성한 지시와 샘플 응답을 기반으로 모델을 조정하는 인스트럭트 튜닝(Ouyang et al., 2022)은 이를 위한 효과적인 방법으로 입증되었지만, a) 사용 가능하지 않거나 b) 생성 비용이 높은 다수의 데이터 샘플이 필요합니다. 더욱이, 단일 지시가 아닌 대화 내에서 특정 워크플로우를 따르도록 LLM을 만드는 것이 목표일 때 이 비용은 더욱 증가합니다. 강화 학습의 자기 대결(self-play) 기술과 LLM을 인간 에이전트 시뮬레이션에 활용하는 방법에서 영감을 받아, 우리는 다양한 역할을 맡은 LLM 간의 대화를 통해 데이터 수집을 더 효과적으로 수행하는 방법을 제안합니다. 이 접근법은 LLM의 "자기 대화(self-talk)"를 통해 훈련 데이터를 생성하며, 이를 정제하여 지도 학습 미세 조정에 활용할 수 있습니다. 우리는 대화의 (부분적) 성공을 측정하는 자동화된 방법을 소개합니다. 이 메트릭은 생성된 대화 데이터를 필터링하여 LLM 훈련에 다시 입력하는 데 사용됩니다. 대화 품질에 대한 자동화된 평가와 인간 평가를 바탕으로, 이러한 자기 대화 데이터가 결과를 개선한다는 것을 입증합니다. 또한, 생성된 대화의 품질을 보여주는 다양한 특성과 이를 훈련 데이터의 잠재적 유용성과 어떻게 연결할 수 있는지 검토합니다.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.