ChatPaper.aiChatPaper

MA-RLHF: Apprendimento per Rinforzo da Feedback Umano con Azioni Macro

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

October 3, 2024
Autori: Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu
cs.AI

Abstract

L'apprendimento per rinforzo da feedback umano (RLHF) ha dimostrato efficacia nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Tuttavia, l'RLHF a livello di token soffre del problema dell'assegnazione del credito su lunghe sequenze, dove i premi ritardati rendono difficile per il modello discernere quali azioni hanno contribuito a esiti di successo. Ciò ostacola l'efficienza dell'apprendimento e rallenta la convergenza. In questo articolo, proponiamo MA-RLHF, un framework RLHF semplice ma efficace che incorpora macro azioni - sequenze di token o costrutti linguistici di livello superiore - nel processo di apprendimento. Operando a questo livello di astrazione più alto, il nostro approccio riduce la distanza temporale tra azioni e ricompense, facilitando un'assegnazione del credito più veloce e accurata. Ciò si traduce in stime più stabili del gradiente di politica e migliora l'efficienza dell'apprendimento all'interno di ciascun episodio, il tutto senza aumentare la complessità computazionale durante l'addestramento o l'inferenza. Convalidiamo il nostro approccio attraverso ampi esperimenti su varie dimensioni di modelli e compiti, tra cui riassunto di testo, generazione di dialoghi, risposta a domande e sintesi di programmi. Il nostro metodo ottiene miglioramenti delle prestazioni sostanziali rispetto all'RLHF standard, con guadagni di prestazioni fino al 30% nel riassunto di testo e nella generazione di codice, 18% nei dialoghi e 8% nei compiti di risposta a domande. In particolare, il nostro approccio raggiunge la parità con l'RLHF standard 1,7x fino a 2x più velocemente in termini di tempo di addestramento e continua a superarlo con ulteriore addestramento. Metteremo a disposizione pubblicamente il nostro codice e i dati su https://github.com/ernie-research/MA-RLHF.
English
Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to successful outcomes. This hinders learning efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions -- sequences of tokens or higher-level language constructs -- into the learning process. By operating at this higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in terms of training time and continues to outperform it with further training. We will make our code and data publicly available at https://github.com/ernie-research/MA-RLHF .
PDF82November 16, 2024