Retroalimentación de Lenguaje Natural a Nivel de Sistema
System-Level Natural Language Feedback
June 23, 2023
Autores: Weizhe Yuan, Kyunghyun Cho, Jason Weston
cs.AI
Resumen
La retroalimentación en lenguaje natural (LN) contiene información valiosa sobre la experiencia del usuario. Los estudios existentes se centran en un enfoque a nivel de instancia, donde la retroalimentación se utiliza para refinar ejemplos específicos, ignorando su aplicación a nivel del sistema. Este artículo propone un marco general para aprovechar el uso de la retroalimentación en LN a nivel del sistema. Mostramos cómo utilizar la retroalimentación para formalizar decisiones de diseño a nivel del sistema en un proceso con intervención humana, con el fin de producir mejores modelos. En particular, esto se logra mediante: (i) el diseño de métricas para tareas; y (ii) el diseño de prompts para modelos de lenguaje con el fin de refinar las respuestas del modelo. Realizamos dos estudios de caso de este enfoque para mejorar la generación de consultas de búsqueda y la generación de respuestas en diálogos, demostrando la efectividad del uso de la retroalimentación a nivel del sistema. Mostramos que la combinación de retroalimentación a nivel del sistema y a nivel de instancia aporta beneficios adicionales, y que la retroalimentación escrita por humanos a nivel de instancia resulta en refinamientos más fundamentados que los escritos por GPT-3.5, destacando la importancia de la retroalimentación humana para la construcción de sistemas.
English
Natural language (NL) feedback contains rich information about the user
experience. Existing studies focus on an instance-level approach, where
feedback is used to refine specific examples, disregarding its system-wide
application. This paper proposes a general framework for unlocking the
system-level use of NL feedback. We show how to use feedback to formalize
system-level design decisions in a human-in-the-loop-process -- in order to
produce better models. In particular this is done through: (i) metric design
for tasks; and (ii) language model prompt design for refining model responses.
We conduct two case studies of this approach for improving search query
generation and dialog response generation, demonstrating the effectiveness of
the use of system-level feedback. We show the combination of system-level
feedback and instance-level feedback brings further gains, and that human
written instance-level feedback results in more grounded refinements than
GPT-3.5 written ones, underlying the importance of human feedback for building
systems.