ChatPaper.aiChatPaper

Sfruttare il Feedback Implicito dai Dati di Deployment nei Sistemi di Dialogo

Leveraging Implicit Feedback from Deployment Data in Dialogue

July 26, 2023
Autori: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI

Abstract

Studiamo il miglioramento degli agenti conversazionali sociali apprendendo da dialoghi naturali tra utenti e un modello già implementato, senza annotazioni aggiuntive. Per misurare implicitamente la qualità di un'espressione generata dalla macchina, sfruttiamo segnali come la lunghezza della risposta dell'utente, il sentimento e la reazione delle future espressioni umane negli episodi di dialogo raccolti. I nostri esperimenti utilizzano i dati di implementazione pubblicamente disponibili di BlenderBot (Xu et al., 2023). Le valutazioni umane indicano miglioramenti nei nostri nuovi modelli rispetto alle risposte di base; tuttavia, scopriamo che alcuni segnali proxy possono portare anche a generazioni con proprietà indesiderate. Ad esempio, ottimizzare per la lunghezza della conversazione può portare a generazioni più controverse o poco amichevoli rispetto al modello di base, mentre ottimizzare per un sentimento o una reazione positiva può ridurre questi comportamenti.
English
We study improving social conversational agents by learning from natural dialogue between users and a deployed model, without extra annotations. To implicitly measure the quality of a machine-generated utterance, we leverage signals like user response length, sentiment and reaction of the future human utterances in the collected dialogue episodes. Our experiments use the publicly released deployment data from BlenderBot (Xu et al., 2023). Human evaluation indicates improvements in our new models over baseline responses; however, we find that some proxy signals can lead to more generations with undesirable properties as well. For example, optimizing for conversation length can lead to more controversial or unfriendly generations compared to the baseline, whereas optimizing for positive sentiment or reaction can decrease these behaviors.
PDF50February 8, 2026