ChatPaper.aiChatPaper

VideoREPA : Apprentissage de la physique pour la génération de vidéos par alignement relationnel avec des modèles de fondation

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

May 29, 2025
Auteurs: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI

Résumé

Les récentes avancées dans les modèles de diffusion texte-vidéo (T2V) ont permis la synthèse de vidéos de haute fidélité et réalistes. Cependant, les modèles T2V actuels rencontrent souvent des difficultés à générer un contenu physiquement plausible en raison de leur capacité intrinsèque limitée à comprendre avec précision la physique. Nous avons constaté que bien que les représentations au sein des modèles T2V possèdent une certaine capacité de compréhension de la physique, elles sont nettement en retard par rapport à celles des méthodes récentes d'apprentissage auto-supervisé sur vidéo. À cette fin, nous proposons un nouveau cadre appelé VideoREPA, qui distille la capacité de compréhension de la physique à partir de modèles de fondation de compréhension vidéo dans les modèles T2V en alignant les relations au niveau des tokens. Cela comble l'écart de compréhension de la physique et permet une génération plus physiquement plausible. Plus précisément, nous introduisons la perte de Distillation des Relations de Tokens (TRD), en tirant parti de l'alignement spatio-temporel pour fournir un guidage doux adapté au fine-tuning de modèles T2V pré-entraînés puissants, une divergence critique par rapport aux méthodes précédentes d'alignement de représentations (REPA). À notre connaissance, VideoREPA est la première méthode REPA conçue pour le fine-tuning de modèles T2V et spécifiquement pour l'injection de connaissances physiques. Les évaluations empiriques montrent que VideoREPA améliore considérablement le bon sens physique de la méthode de base, CogVideoX, obtenant une amélioration significative sur les benchmarks pertinents et démontrant une forte capacité à générer des vidéos cohérentes avec la physique intuitive. Plus de résultats vidéo sont disponibles à l'adresse https://videorepa.github.io/.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled high-fidelity and realistic video synthesis. However, current T2V models often struggle to generate physically plausible content due to their limited inherent ability to accurately understand physics. We found that while the representations within T2V models possess some capacity for physics understanding, they lag significantly behind those from recent video self-supervised learning methods. To this end, we propose a novel framework called VideoREPA, which distills physics understanding capability from video understanding foundation models into T2V models by aligning token-level relations. This closes the physics understanding gap and enable more physics-plausible generation. Specifically, we introduce the Token Relation Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft guidance suitable for finetuning powerful pre-trained T2V models, a critical departure from prior representation alignment (REPA) methods. To our knowledge, VideoREPA is the first REPA method designed for finetuning T2V models and specifically for injecting physical knowledge. Empirical evaluations show that VideoREPA substantially enhances the physics commonsense of baseline method, CogVideoX, achieving significant improvement on relevant benchmarks and demonstrating a strong capacity for generating videos consistent with intuitive physics. More video results are available at https://videorepa.github.io/.
PDF242June 6, 2025