Использование неявной обратной связи из данных развертывания в диалоговых системах
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Авторы: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Аннотация
Мы исследуем улучшение социальных диалоговых агентов путем обучения на основе естественных диалогов между пользователями и развернутой моделью, без дополнительных аннотаций. Для неявной оценки качества машинно-сгенерированных высказываний мы используем такие сигналы, как длина ответа пользователя, эмоциональная окраска и реакция на последующие человеческие высказывания в собранных диалоговых эпизодах. Наши эксперименты основаны на публично доступных данных развертывания модели BlenderBot (Xu et al., 2023). Человеческая оценка показывает улучшения в наших новых моделях по сравнению с базовыми ответами; однако мы обнаруживаем, что некоторые косвенные сигналы могут также приводить к генерации высказываний с нежелательными свойствами. Например, оптимизация для увеличения длины диалога может привести к более спорным или недружелюбным высказываниям по сравнению с базовой моделью, тогда как оптимизация для позитивной эмоциональной окраски или реакции может уменьшить такие проявления.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.