MA-RLHF: Aprendizaje por Refuerzo a partir de Retroalimentación Humana con Acciones Macro
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions
October 3, 2024
Autores: Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) ha demostrado su efectividad en alinear grandes modelos de lenguaje (LLMs) con las preferencias humanas. Sin embargo, el RLHF a nivel de token sufre del problema de asignación de crédito sobre secuencias largas, donde las recompensas retrasadas dificultan que el modelo distinga qué acciones contribuyeron a los resultados exitosos. Esto obstaculiza la eficiencia del aprendizaje y ralentiza la convergencia. En este documento, proponemos MA-RLHF, un marco de RLHF simple pero efectivo que incorpora macroacciones -- secuencias de tokens o construcciones de lenguaje de nivel superior -- en el proceso de aprendizaje. Al operar en este nivel de abstracción más alto, nuestro enfoque reduce la distancia temporal entre acciones y recompensas, facilitando una asignación de crédito más rápida y precisa. Esto resulta en estimaciones de gradiente de política más estables y mejora la eficiencia del aprendizaje dentro de cada episodio, todo ello sin aumentar la complejidad computacional durante el entrenamiento o la inferencia. Validamos nuestro enfoque a través de experimentos extensos en diferentes tamaños de modelos y tareas, incluyendo resumen de texto, generación de diálogos, respuesta a preguntas y síntesis de programas. Nuestro método logra mejoras de rendimiento sustanciales respecto al RLHF estándar, con incrementos de rendimiento de hasta un 30% en resumen de texto y generación de código, un 18% en diálogos y un 8% en tareas de respuesta a preguntas. Especialmente, nuestro enfoque alcanza la paridad con RLHF básico de 1.7x a 2x más rápido en términos de tiempo de entrenamiento y sigue superándolo con más entrenamiento. Pondremos nuestro código y datos a disposición del público en https://github.com/ernie-research/MA-RLHF.
English
Reinforcement learning from human feedback (RLHF) has demonstrated
effectiveness in aligning large language models (LLMs) with human preferences.
However, token-level RLHF suffers from the credit assignment problem over long
sequences, where delayed rewards make it challenging for the model to discern
which actions contributed to successful outcomes. This hinders learning
efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple
yet effective RLHF framework that incorporates macro actions -- sequences of
tokens or higher-level language constructs -- into the learning process. By
operating at this higher level of abstraction, our approach reduces the
temporal distance between actions and rewards, facilitating faster and more
accurate credit assignment. This results in more stable policy gradient
estimates and enhances learning efficiency within each episode, all without
increasing computational complexity during training or inference. We validate
our approach through extensive experiments across various model sizes and
tasks, including text summarization, dialogue generation, question answering,
and program synthesis. Our method achieves substantial performance improvements
over standard RLHF, with performance gains of up to 30% in text summarization
and code generation, 18% in dialogue, and 8% in question answering tasks.
Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in
terms of training time and continues to outperform it with further training. We
will make our code and data publicly available at
https://github.com/ernie-research/MA-RLHF .Summary
AI-Generated Summary