Sfruttare il Feedback Implicito dai Dati di Deployment nei Sistemi di Dialogo
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Autori: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Abstract
Studiamo il miglioramento degli agenti conversazionali sociali apprendendo da dialoghi naturali tra utenti e un modello già implementato, senza annotazioni aggiuntive. Per misurare implicitamente la qualità di un'espressione generata dalla macchina, sfruttiamo segnali come la lunghezza della risposta dell'utente, il sentimento e la reazione delle future espressioni umane negli episodi di dialogo raccolti. I nostri esperimenti utilizzano i dati di implementazione pubblicamente disponibili di BlenderBot (Xu et al., 2023). Le valutazioni umane indicano miglioramenti nei nostri nuovi modelli rispetto alle risposte di base; tuttavia, scopriamo che alcuni segnali proxy possono portare anche a generazioni con proprietà indesiderate. Ad esempio, ottimizzare per la lunghezza della conversazione può portare a generazioni più controverse o poco amichevoli rispetto al modello di base, mentre ottimizzare per un sentimento o una reazione positiva può ridurre questi comportamenti.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.