ChatPaper.aiChatPaper

Aprendizado de Preferências Contrastivas: Aprendendo com Feedback Humano sem Aprendizado por Reforço

Contrastive Prefence Learning: Learning from Human Feedback without RL

October 20, 2023
Autores: Joey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh
cs.AI

Resumo

O Aprendizado por Reforço a partir de Feedback Humano (RLHF, na sigla em inglês) surgiu como um paradigma popular para alinhar modelos com a intenção humana. Tipicamente, os algoritmos de RLHF operam em duas fases: primeiro, utilizam preferências humanas para aprender uma função de recompensa e, segundo, alinham o modelo otimizando a recompensa aprendida por meio de aprendizado por reforço (RL). Esse paradigma assume que as preferências humanas são distribuídas de acordo com a recompensa, mas trabalhos recentes sugerem que, em vez disso, elas seguem o arrependimento sob a política ótima do usuário. Assim, aprender uma função de recompensa a partir do feedback não apenas se baseia em uma suposição falha sobre a preferência humana, mas também leva a desafios de otimização complexos que surgem de gradientes de política ou bootstrapping na fase de RL. Devido a esses desafios de otimização, os métodos contemporâneos de RLHF restringem-se a configurações de bandit contextual (por exemplo, em modelos de linguagem de grande escala) ou limitam a dimensionalidade das observações (por exemplo, em robótica baseada em estados). Superamos essas limitações ao introduzir uma nova família de algoritmos para otimizar comportamentos a partir de feedback humano utilizando o modelo de preferências humanas baseado em arrependimento. Usando o princípio da entropia máxima, derivamos o Aprendizado de Preferência Contrastiva (CPL, na sigla em inglês), um algoritmo para aprender políticas ótimas a partir de preferências sem aprender funções de recompensa, contornando a necessidade de RL. O CPL é completamente off-policy, utiliza apenas um objetivo contrastivo simples e pode ser aplicado a MDPs (Processos de Decisão Markovianos) arbitrários. Isso permite que o CPL escale elegantemente para problemas de RLHF sequenciais e de alta dimensionalidade, sendo mais simples do que métodos anteriores.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a popular paradigm for aligning models with human intent. Typically RLHF algorithms operate in two phases: first, use human preferences to learn a reward function and second, align the model by optimizing the learned reward via reinforcement learning (RL). This paradigm assumes that human preferences are distributed according to reward, but recent work suggests that they instead follow the regret under the user's optimal policy. Thus, learning a reward function from feedback is not only based on a flawed assumption of human preference, but also leads to unwieldy optimization challenges that stem from policy gradients or bootstrapping in the RL phase. Because of these optimization challenges, contemporary RLHF methods restrict themselves to contextual bandit settings (e.g., as in large language models) or limit observation dimensionality (e.g., state-based robotics). We overcome these limitations by introducing a new family of algorithms for optimizing behavior from human feedback using the regret-based model of human preferences. Using the principle of maximum entropy, we derive Contrastive Preference Learning (CPL), an algorithm for learning optimal policies from preferences without learning reward functions, circumventing the need for RL. CPL is fully off-policy, uses only a simple contrastive objective, and can be applied to arbitrary MDPs. This enables CPL to elegantly scale to high-dimensional and sequential RLHF problems while being simpler than prior methods.
PDF252February 8, 2026