Nutzung impliziter Feedbacks aus Einsatzdaten in Dialogsystemen
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Autoren: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Zusammenfassung
Wir untersuchen die Verbesserung sozialer Konversationsagenten durch das Lernen aus natürlichen Dialogen zwischen Nutzern und einem eingesetzten Modell, ohne zusätzliche Annotationen. Um die Qualität einer maschinell generierten Äußerung implizit zu messen, nutzen wir Signale wie die Länge der Nutzerantwort, die Stimmung und die Reaktion der zukünftigen menschlichen Äußerungen in den gesammelten Dialogepisoden. Unsere Experimente verwenden die öffentlich verfügbaren Einsatzdaten von BlenderBot (Xu et al., 2023). Menschliche Bewertungen zeigen Verbesserungen unserer neuen Modelle gegenüber den Baseline-Antworten; jedoch stellen wir fest, dass einige Proxy-Signale auch zu mehr Generationen mit unerwünschten Eigenschaften führen können. Beispielsweise kann die Optimierung auf Gesprächslänge zu mehr kontroversen oder unfreundlichen Generationen im Vergleich zur Baseline führen, während die Optimierung auf positive Stimmung oder Reaktion diese Verhaltensweisen verringern kann.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.