Aprovechando la retroalimentación implícita de los datos de implementación en diálogos
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
Autores: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
Resumen
Estudiamos la mejora de agentes conversacionales sociales mediante el aprendizaje a partir de diálogos naturales entre usuarios y un modelo desplegado, sin necesidad de anotaciones adicionales. Para medir implícitamente la calidad de una expresión generada por la máquina, aprovechamos señales como la longitud de la respuesta del usuario, el sentimiento y la reacción de las futuras expresiones humanas en los episodios de diálogo recopilados. Nuestros experimentos utilizan los datos de despliegue públicamente disponibles de BlenderBot (Xu et al., 2023). La evaluación humana indica mejoras en nuestros nuevos modelos en comparación con las respuestas de referencia; sin embargo, encontramos que algunas señales proxy pueden llevar a más generaciones con propiedades indeseables. Por ejemplo, optimizar para la longitud de la conversación puede resultar en más generaciones controvertidas o poco amistosas en comparación con la referencia, mientras que optimizar para el sentimiento positivo o la reacción puede reducir estos comportamientos.
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.Summary
AI-Generated Summary