LLMベースのタスク指向対話エージェントの自己対話によるブートストラッピング
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
著者: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
要旨
大規模言語モデル(LLM)は強力な対話エージェントですが、特定の機能を果たすように専門化することは難しい場合があります。人間が生成した指示とサンプル応答を用いてモデルをチューニングする「指示チューニング」(Ouyang et al., 2022)は、そのための有効な方法として証明されていますが、a) 利用可能でない場合がある、または b) 生成にコストがかかる大量のデータサンプルを必要とします。さらに、単一の指示ではなく、対話内で特定のワークフローに従わせることを目的とする場合、このコストは増加します。強化学習における自己対戦技術と、LLMを人間エージェントとしてシミュレートする手法に着想を得て、私たちはLLMがさまざまな役割で会話を行うことでデータ収集をより効果的に行う方法を提案します。このアプローチでは、LLMの「自己会話」を通じてトレーニングデータを生成し、それを精緻化して教師ありファインチューニングに利用します。また、対話の(部分的)成功を自動的に測定する方法を導入します。この指標は、生成された会話データをフィルタリングし、LLMのトレーニングにフィードバックするために使用されます。自動評価と人間による評価に基づいて、このような自己会話データが結果を改善することを示します。さらに、生成された対話の質を示すさまざまな特性と、それらがトレーニングデータとしての潜在的な有用性にどのように関連するかを検証します。
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.