ChatPaper.aiChatPaper

RLVF: Aprendizaje a partir de retroalimentación verbal sin sobre-generalización

RLVF: Learning from Verbal Feedback without Overgeneralization

February 16, 2024
Autores: Moritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn
cs.AI

Resumen

La diversidad de contextos en los que se despliegan los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) requiere la capacidad de modificar o personalizar los comportamientos predeterminados del modelo para incorporar requisitos y preferencias matizados. Una interfaz conveniente para especificar tales ajustes del modelo es el feedback verbal de alto nivel, como "No uses emojis al redactar correos electrónicos para mi jefe". Sin embargo, aunque escribir feedback de alto nivel es mucho más simple que recopilar anotaciones para el aprendizaje por refuerzo a partir de feedback humano (RLHF, por sus siglas en inglés), encontramos que simplemente proporcionar dicho feedback al modelo conduce a una sobregeneralización del mismo en contextos donde no es relevante. Estudiamos el problema de incorporar feedback verbal sin dicha sobregeneralización, lo que inspira un nuevo método llamado Críticas Contextualizadas con Optimización de Preferencias Restringidas (C3PO, por sus siglas en inglés). C3PO utiliza una pieza de feedback de alto nivel para generar un pequeño conjunto de datos sintéticos de preferencias que especifica cómo debería (y no debería) aplicarse el feedback. Luego, ajusta el modelo de acuerdo con los datos sintéticos de preferencias mientras minimiza la divergencia del modelo original para prompts donde el feedback no aplica. Nuestros resultados experimentales indican que nuestro enfoque aplica efectivamente el feedback verbal a escenarios relevantes mientras preserva los comportamientos existentes para otros contextos. Tanto para el feedback de alto nivel generado por humanos como por GPT-4, C3PO adhiere efectivamente al feedback proporcionado de manera comparable a las líneas base en contexto, mientras reduce la sobregeneralización en un 30%.
English
The diversity of contexts in which large language models (LLMs) are deployed requires the ability to modify or customize default model behaviors to incorporate nuanced requirements and preferences. A convenient interface to specify such model adjustments is high-level verbal feedback, such as "Don't use emojis when drafting emails to my boss." However, while writing high-level feedback is far simpler than collecting annotations for reinforcement learning from human feedback (RLHF), we find that simply prompting a model with such feedback leads to overgeneralization of the feedback to contexts where it is not relevant. We study the problem of incorporating verbal feedback without such overgeneralization, inspiring a new method Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level feedback to generate a small synthetic preference dataset specifying how the feedback should (and should not) be applied. It then fine-tunes the model in accordance with the synthetic preference data while minimizing the divergence from the original model for prompts where the feedback does not apply. Our experimental results indicate that our approach effectively applies verbal feedback to relevant scenarios while preserving existing behaviors for other contexts. For both human- and GPT-4-generated high-level feedback, C3PO effectively adheres to the given feedback comparably to in-context baselines while reducing overgeneralization by 30%.
PDF122December 15, 2024