VideoREPA: Aprendendo Física para Geração de Vídeo através de Alinhamento Relacional com Modelos de Base
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
May 29, 2025
Autores: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI
Resumo
Avanços recentes em modelos de difusão texto-para-vídeo (T2V) têm possibilitado a síntese de vídeos de alta fidelidade e realistas. No entanto, os modelos T2V atuais frequentemente enfrentam dificuldades para gerar conteúdos fisicamente plausíveis devido à sua capacidade inerente limitada de compreender a física com precisão. Descobrimos que, embora as representações dentro dos modelos T2V possuam alguma capacidade de compreensão da física, elas ficam significativamente atrás das representações provenientes de métodos recentes de aprendizado auto-supervisionado de vídeo. Para isso, propomos uma nova estrutura chamada VideoREPA, que destila a capacidade de compreensão da física de modelos fundamentais de compreensão de vídeo para modelos T2V, alinhando relações em nível de token. Isso fecha a lacuna de compreensão da física e permite uma geração mais fisicamente plausível. Especificamente, introduzimos a perda de Distilação de Relação de Token (TRD), aproveitando o alinhamento espaço-temporal para fornecer uma orientação suave adequada para o ajuste fino de modelos T2V pré-treinados poderosos, uma abordagem crítica que se diferencia dos métodos anteriores de alinhamento de representação (REPA). Até onde sabemos, o VideoREPA é o primeiro método REPA projetado para o ajuste fino de modelos T2V e especificamente para a injeção de conhecimento físico. Avaliações empíricas mostram que o VideoREPA aprimora substancialmente o senso comum físico do método de base, CogVideoX, alcançando uma melhoria significativa em benchmarks relevantes e demonstrando uma forte capacidade de gerar vídeos consistentes com a física intuitiva. Mais resultados em vídeo estão disponíveis em https://videorepa.github.io/.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled
high-fidelity and realistic video synthesis. However, current T2V models often
struggle to generate physically plausible content due to their limited inherent
ability to accurately understand physics. We found that while the
representations within T2V models possess some capacity for physics
understanding, they lag significantly behind those from recent video
self-supervised learning methods. To this end, we propose a novel framework
called VideoREPA, which distills physics understanding capability from video
understanding foundation models into T2V models by aligning token-level
relations. This closes the physics understanding gap and enable more
physics-plausible generation. Specifically, we introduce the Token Relation
Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft
guidance suitable for finetuning powerful pre-trained T2V models, a critical
departure from prior representation alignment (REPA) methods. To our knowledge,
VideoREPA is the first REPA method designed for finetuning T2V models and
specifically for injecting physical knowledge. Empirical evaluations show that
VideoREPA substantially enhances the physics commonsense of baseline method,
CogVideoX, achieving significant improvement on relevant benchmarks and
demonstrating a strong capacity for generating videos consistent with intuitive
physics. More video results are available at https://videorepa.github.io/.