Aproveitando o Feedback Implícito de Dados de Implantação em Diálogo
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Autores: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Resumo
Estudamos a melhoria de agentes conversacionais sociais aprendendo a partir de diálogos naturais entre usuários e um modelo implantado, sem anotações adicionais. Para medir implicitamente a qualidade de uma expressão gerada por máquina, utilizamos sinais como o comprimento da resposta do usuário, o sentimento e a reação das futuras expressões humanas nos episódios de diálogo coletados. Nossos experimentos utilizam os dados de implantação publicamente disponíveis do BlenderBot (Xu et al., 2023). A avaliação humana indica melhorias em nossos novos modelos em comparação com as respostas de linha de base; no entanto, descobrimos que alguns sinais substitutos também podem levar a mais gerações com propriedades indesejáveis. Por exemplo, otimizar para o comprimento da conversa pode resultar em gerações mais controversas ou hostis em comparação com a linha de base, enquanto otimizar para sentimento positivo ou reação pode reduzir esses comportamentos.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.