VideoREPA: Fysica leren voor videogeneratie door relationele afstemming met foundation-modellen
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
May 29, 2025
Auteurs: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI
Samenvatting
Recente vooruitgang in text-to-video (T2V) diffusiemodellen heeft hoogwaardige en realistische videosynthese mogelijk gemaakt. Huidige T2V-modellen hebben echter vaak moeite om fysiek plausibele inhoud te genereren vanwege hun beperkte inherente vermogen om fysica nauwkeurig te begrijpen. We ontdekten dat hoewel de representaties binnen T2V-modellen enig vermogen hebben om fysica te begrijpen, ze aanzienlijk achterblijven bij die van recente zelfsuperviserende videoleermethoden. Daarom stellen we een nieuw framework voor, genaamd VideoREPA, dat het vermogen om fysica te begrijpen destilleert uit videobegrip-foundationmodellen en dit in T2V-modellen integreert door token-level relaties uit te lijnen. Dit overbrugt de kloof in fysicabegrip en maakt meer fysiek plausibele generatie mogelijk. Specifiek introduceren we het Token Relation Distillation (TRD) verlies, waarbij gebruik wordt gemaakt van spatio-temporele uitlijning om zachte begeleiding te bieden die geschikt is voor het finetunen van krachtige vooraf getrainde T2V-modellen, een kritisch verschil met eerdere representatie-uitlijningsmethoden (REPA). Voor zover wij weten, is VideoREPA de eerste REPA-methode die is ontworpen voor het finetunen van T2V-modellen en specifiek voor het injecteren van fysieke kennis. Empirische evaluaties tonen aan dat VideoREPA het fysieke gezond verstand van de baseline-methode, CogVideoX, aanzienlijk verbetert, met significante verbeteringen op relevante benchmarks en een sterke capaciteit demonstreert voor het genereren van video's die consistent zijn met intuïtieve fysica. Meer videoresultaten zijn beschikbaar op https://videorepa.github.io/.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled
high-fidelity and realistic video synthesis. However, current T2V models often
struggle to generate physically plausible content due to their limited inherent
ability to accurately understand physics. We found that while the
representations within T2V models possess some capacity for physics
understanding, they lag significantly behind those from recent video
self-supervised learning methods. To this end, we propose a novel framework
called VideoREPA, which distills physics understanding capability from video
understanding foundation models into T2V models by aligning token-level
relations. This closes the physics understanding gap and enable more
physics-plausible generation. Specifically, we introduce the Token Relation
Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft
guidance suitable for finetuning powerful pre-trained T2V models, a critical
departure from prior representation alignment (REPA) methods. To our knowledge,
VideoREPA is the first REPA method designed for finetuning T2V models and
specifically for injecting physical knowledge. Empirical evaluations show that
VideoREPA substantially enhances the physics commonsense of baseline method,
CogVideoX, achieving significant improvement on relevant benchmarks and
demonstrating a strong capacity for generating videos consistent with intuitive
physics. More video results are available at https://videorepa.github.io/.