MA-RLHF: Aprendizaje por Refuerzo a partir de Retroalimentación Humana con Acciones Macro

Resumen

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) ha demostrado su efectividad en alinear grandes modelos de lenguaje (LLMs) con las preferencias humanas. Sin embargo, el RLHF a nivel de token sufre del problema de asignación de crédito sobre secuencias largas, donde las recompensas retrasadas dificultan que el modelo distinga qué acciones contribuyeron a los resultados exitosos. Esto obstaculiza la eficiencia del aprendizaje y ralentiza la convergencia. En este documento, proponemos MA-RLHF, un marco de RLHF simple pero efectivo que incorpora macroacciones -- secuencias de tokens o construcciones de lenguaje de nivel superior -- en el proceso de aprendizaje. Al operar en este nivel de abstracción más alto, nuestro enfoque reduce la distancia temporal entre acciones y recompensas, facilitando una asignación de crédito más rápida y precisa. Esto resulta en estimaciones de gradiente de política más estables y mejora la eficiencia del aprendizaje dentro de cada episodio, todo ello sin aumentar la complejidad computacional durante el entrenamiento o la inferencia. Validamos nuestro enfoque a través de experimentos extensos en diferentes tamaños de modelos y tareas, incluyendo resumen de texto, generación de diálogos, respuesta a preguntas y síntesis de programas. Nuestro método logra mejoras de rendimiento sustanciales respecto al RLHF estándar, con incrementos de rendimiento de hasta un 30% en resumen de texto y generación de código, un 18% en diálogos y un 8% en tareas de respuesta a preguntas. Especialmente, nuestro enfoque alcanza la paridad con RLHF básico de 1.7x a 2x más rápido en términos de tiempo de entrenamiento y sigue superándolo con más entrenamiento. Pondremos nuestro código y datos a disposición del público en https://github.com/ernie-research/MA-RLHF.

English

Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to successful outcomes. This hinders learning efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions -- sequences of tokens or higher-level language constructs -- into the learning process. By operating at this higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in terms of training time and continues to outperform it with further training. We will make our code and data publicly available at https://github.com/ernie-research/MA-RLHF .

MA-RLHF: Aprendizaje por Refuerzo a partir de Retroalimentación Humana con Acciones Macro

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

Resumen

Support