Modelos de Geração de Vídeo São Bons Modelos de Recompensa Latente

Resumo

A aprendizagem por feedback de recompensa (ReFL) tem-se mostrado eficaz para alinhar a geração de imagens com as preferências humanas. No entanto, a sua extensão para a geração de vídeo enfrenta desafios significativos. Os modelos de recompensa de vídeo existentes dependem de modelos de visão e linguagem concebidos para entradas no espaço de pixels, confinando a otimização ReFL a etapas de desruído quase completas após a computacionalmente dispendiosa descodificação VAE. Esta abordagem no espaço de pixels acarreta uma sobrecarga substancial de memória e um aumento do tempo de treino, e a sua otimização em fase tardia carece de supervisão em fases iniciais, refinando apenas a qualidade visual em vez da dinâmica motora fundamental e da coerência estrutural. Neste trabalho, mostramos que os modelos de geração de vídeo pré-treinados são naturalmente adequados para a modelação de recompensas no espaço latente ruidoso, uma vez que foram explicitamente concebidos para processar representações latentes ruidosas em intervalos de tempo arbitrários e preservam inerentemente informação temporal através das suas capacidades de modelação sequencial. Consequentemente, propomos a Aprendizagem por Feedback de Recompensa de Processo (PRFL), uma estrutura que conduz a otimização de preferências inteiramente no espaço latente, permitindo uma retropropagação eficiente do gradiente ao longo de toda a cadeia de desruído sem descodificação VAE. Experiências extensivas demonstram que a PRFL melhora significativamente o alinhamento com as preferências humanas, ao mesmo tempo que alcança reduções substanciais no consumo de memória e no tempo de treino em comparação com a ReFL em RGB.

English

Reward feedback learning (ReFL) has proven effective for aligning image generation with human preferences. However, its extension to video generation faces significant challenges. Existing video reward models rely on vision-language models designed for pixel-space inputs, confining ReFL optimization to near-complete denoising steps after computationally expensive VAE decoding. This pixel-space approach incurs substantial memory overhead and increased training time, and its late-stage optimization lacks early-stage supervision, refining only visual quality rather than fundamental motion dynamics and structural coherence. In this work, we show that pre-trained video generation models are naturally suited for reward modeling in the noisy latent space, as they are explicitly designed to process noisy latent representations at arbitrary timesteps and inherently preserve temporal information through their sequential modeling capabilities. Accordingly, we propose Process Reward Feedback Learning~(PRFL), a framework that conducts preference optimization entirely in latent space, enabling efficient gradient backpropagation throughout the full denoising chain without VAE decoding. Extensive experiments demonstrate that PRFL significantly improves alignment with human preferences, while achieving substantial reductions in memory consumption and training time compared to RGB ReFL.

Modelos de Geração de Vídeo São Bons Modelos de Recompensa Latente

Video Generation Models Are Good Latent Reward Models

Resumo

Support