ChatPaper.aiChatPaper

MA-RLHF: Versterkend Leren van Menselijke Feedback met Macro-acties

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

October 3, 2024
Auteurs: Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu
cs.AI

Samenvatting

Reinforcement learning van menselijke feedback (RLHF) heeft effectiviteit aangetoond bij het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Echter, op token-niveau ondervindt RLHF problemen met het toekennen van krediet over lange sequenties, waar vertraagde beloningen het voor het model uitdagend maken om te bepalen welke acties hebben bijgedragen aan succesvolle resultaten. Dit belemmert de leerefficiëntie en vertraagt de convergentie. In dit artikel stellen we MA-RLHF voor, een eenvoudig maar effectief RLHF-framework dat macro-acties - sequenties van tokens of hoger niveau taalconstructies - opneemt in het leerproces. Door op dit hogere abstractieniveau te werken, vermindert onze aanpak de temporale afstand tussen acties en beloningen, wat zorgt voor snellere en nauwkeurigere toekenning van krediet. Dit resulteert in meer stabiele schattingen van beleidsgradiënten en verbetert de leerefficiëntie binnen elke episode, zonder de computationele complexiteit tijdens training of inferentie te verhogen. We valideren onze aanpak via uitgebreide experimenten over verschillende modelgroottes en taken, waaronder tekstsamenvatting, dialooggeneratie, vraagbeantwoording en programma-synthese. Onze methode behaalt aanzienlijke prestatieverbeteringen ten opzichte van standaard RLHF, met prestatiewinsten tot 30% bij tekstsamenvatting en codegeneratie, 18% bij dialoog en 8% bij vraagbeantwoordingstaken. Opmerkelijk bereikt onze aanpak gelijkwaardigheid met standaard RLHF 1,7x tot 2x sneller wat betreft trainingsduur en blijft het deze overtreffen met verdere training. We zullen onze code en gegevens openbaar beschikbaar maken op https://github.com/ernie-research/MA-RLHF.
English
Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to successful outcomes. This hinders learning efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions -- sequences of tokens or higher-level language constructs -- into the learning process. By operating at this higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in terms of training time and continues to outperform it with further training. We will make our code and data publicly available at https://github.com/ernie-research/MA-RLHF .

Summary

AI-Generated Summary

PDF82November 16, 2024