ChatPaper.aiChatPaper

Alinhamento de Difusão de Vídeo via Gradientes de Recompensa

Video Diffusion Alignment via Reward Gradients

July 11, 2024
Autores: Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
cs.AI

Resumo

Fizemos progressos significativos na construção de modelos fundamentais de difusão de vídeo. Como esses modelos são treinados usando dados não supervisionados em grande escala, tornou-se crucial adaptá-los a tarefas específicas. Adaptar esses modelos por meio de ajuste fino supervisionado requer a coleta de conjuntos de dados-alvo de vídeos, o que é desafiador e tedioso. Neste trabalho, utilizamos modelos de recompensa pré-treinados, aprendidos por preferências sobre modelos discriminativos de visão poderosos, para adaptar modelos de difusão de vídeo. Esses modelos contêm informações de gradiente densas em relação aos pixels RGB gerados, o que é crítico para a aprendizagem eficiente em espaços de busca complexos, como vídeos. Mostramos que retropropagar gradientes desses modelos de recompensa para um modelo de difusão de vídeo pode permitir o alinhamento eficiente em termos de cálculo e amostragem do modelo de difusão de vídeo. Apresentamos resultados com uma variedade de modelos de recompensa e modelos de difusão de vídeo, demonstrando que nossa abordagem pode aprender de forma muito mais eficiente em termos de consultas de recompensa e computação do que abordagens anteriores sem gradientes. Nosso código, pesos do modelo e mais visualizações estão disponíveis em https://vader-vid.github.io.
English
We have made significant progress towards building foundational video diffusion models. As these models are trained using large-scale unsupervised data, it has become crucial to adapt these models to specific downstream tasks. Adapting these models via supervised fine-tuning requires collecting target datasets of videos, which is challenging and tedious. In this work, we utilize pre-trained reward models that are learned via preferences on top of powerful vision discriminative models to adapt video diffusion models. These models contain dense gradient information with respect to generated RGB pixels, which is critical to efficient learning in complex search spaces, such as videos. We show that backpropagating gradients from these reward models to a video diffusion model can allow for compute and sample efficient alignment of the video diffusion model. We show results across a variety of reward models and video diffusion models, demonstrating that our approach can learn much more efficiently in terms of reward queries and computation than prior gradient-free approaches. Our code, model weights,and more visualization are available at https://vader-vid.github.io.
PDF502November 28, 2024