Avvio autonomo di agenti di dialogo orientati ai compiti basati su LLM tramite auto-conversazione
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
Autori: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono potenti agenti di dialogo, ma specializzarli per svolgere una funzione specifica può essere complesso. La regolazione tramite istruzioni, ovvero l'addestramento dei modelli su istruzioni e risposte campione generate da esseri umani (Ouyang et al., 2022), si è dimostrata un metodo efficace per raggiungere questo obiettivo, ma richiede un numero di campioni di dati che a) potrebbero non essere disponibili o b) sono costosi da generare. Inoltre, questo costo aumenta quando l'obiettivo è far seguire all'LLM un flusso di lavoro specifico all'interno di un dialogo, anziché singole istruzioni. Ispirati dalla tecnica del self-play nell'apprendimento per rinforzo e dall'uso degli LLM per simulare agenti umani, proponiamo un metodo più efficace per la raccolta di dati attraverso LLM che interagiscono in conversazioni assumendo vari ruoli. Questo approccio genera dati di addestramento tramite il "dialogo interno" degli LLM, che possono essere raffinati e utilizzati per la regolazione supervisionata. Introduciamo un modo automatizzato per misurare il (parziale) successo di un dialogo. Questa metrica viene utilizzata per filtrare i dati conversazionali generati, che vengono poi reinseriti nell'LLM per l'addestramento. Sulla base delle nostre valutazioni automatizzate e umane della qualità delle conversazioni, dimostriamo che tali dati di dialogo interno migliorano i risultati. Inoltre, esaminiamo le varie caratteristiche che evidenziano la qualità dei dialoghi generati e come queste possano essere collegate alla loro potenziale utilità come dati di addestramento.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.