RL4F: Generación de retroalimentación en lenguaje natural con aprendizaje por refuerzo para la reparación de salidas de modelos
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
Autores: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
Resumen
A pesar de su éxito sin precedentes, incluso los modelos de lenguaje más grandes cometen errores. De manera similar a cómo los humanos aprenden y mejoran utilizando retroalimentación, trabajos anteriores propusieron proporcionar a los modelos de lenguaje comentarios en lenguaje natural para guiarlos en la corrección de sus salidas. Dado que obtener críticas generadas por humanos es costoso, los investigadores han diseñado generadores de críticas aprendidas en lugar de críticos humanos, asumiendo que se pueden entrenar modelos posteriores para utilizar los comentarios generados. Sin embargo, este enfoque no es aplicable a modelos de caja negra o de acceso limitado, como ChatGPT, ya que no pueden ser ajustados. Además, en la era de los agentes de lenguaje general de gran escala, el ajuste fino no es eficiente ni computacional ni espacialmente, ya que resulta en múltiples copias de la red. En este trabajo, presentamos RL4F (Reinforcement Learning for Feedback), un marco colaborativo multiagente en el que el generador de críticas se entrena para maximizar el rendimiento en la tarea final de GPT-3, un modelo fijo más de 200 veces su tamaño. RL4F produce críticas que ayudan a GPT-3 a revisar sus salidas. Estudiamos tres conjuntos de datos para planificación de acciones, resumen y alfabetización y mostramos mejoras (~5% en promedio) en múltiples métricas de similitud de texto sobre líneas de base sólidas en las tres tareas.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.