Benutten van Impliciete Feedback uit Implementatiegegevens in Dialoog
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Auteurs: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Samenvatting
We bestuderen het verbeteren van sociale conversatie-agents door te leren van natuurlijke dialogen tussen gebruikers en een geïmplementeerd model, zonder extra annotaties. Om de kwaliteit van een door een machine gegenereerde uiting impliciet te meten, maken we gebruik van signalen zoals de lengte van de gebruikersreactie, sentiment en de reactie van toekomstige menselijke uitingen in de verzamelde dialoogepisodes. Onze experimenten gebruiken de openbaar vrijgegeven implementatiegegevens van BlenderBot (Xu et al., 2023). Menselijke evaluatie wijst op verbeteringen in onze nieuwe modellen ten opzichte van basislijngesprekken; echter, we ontdekken dat sommige proxiesignalen ook kunnen leiden tot meer generaties met ongewenste eigenschappen. Bijvoorbeeld, optimaliseren voor gesprekslengte kan leiden tot meer controversiële of onvriendelijke generaties in vergelijking met de basislijn, terwijl optimaliseren voor positief sentiment of reactie deze gedragingen kan verminderen.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.