Exploitation des retours implicites issus des données de déploiement dans les systèmes de dialogue
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Auteurs: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Résumé
Nous étudions l'amélioration des agents conversationnels sociaux en apprenant à partir de dialogues naturels entre les utilisateurs et un modèle déployé, sans annotations supplémentaires. Pour mesurer implicitement la qualité d'un énoncé généré par la machine, nous exploitons des signaux tels que la longueur de la réponse de l'utilisateur, le sentiment et la réaction des énoncés humains futurs dans les épisodes de dialogue collectés. Nos expériences utilisent les données de déploiement publiquement disponibles de BlenderBot (Xu et al., 2023). L'évaluation humaine indique des améliorations dans nos nouveaux modèles par rapport aux réponses de référence ; cependant, nous constatons que certains signaux proxy peuvent également conduire à davantage de générations présentant des propriétés indésirables. Par exemple, optimiser pour la longueur de la conversation peut entraîner des générations plus controversées ou moins amicales par rapport à la référence, tandis qu'optimiser pour un sentiment ou une réaction positive peut réduire ces comportements.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.Summary
AI-Generated Summary