VideoREPA: Physikalisches Lernen für die Videogenerierung durch relationale Ausrichtung mit Foundation-Modellen
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
May 29, 2025
Autoren: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI
Zusammenfassung
Jüngste Fortschritte in Text-zu-Video (T2V) Diffusionsmodellen haben die Synthese von hochwertigen und realistischen Videos ermöglicht. Allerdings haben aktuelle T2V-Modelle oft Schwierigkeiten, physikalisch plausible Inhalte zu erzeugen, da ihre inhärente Fähigkeit, Physik genau zu verstehen, begrenzt ist. Wir haben festgestellt, dass die Repräsentationen innerhalb von T2V-Modellen zwar ein gewisses Verständnis für Physik besitzen, jedoch deutlich hinter denen aktueller selbstüberwachter Lernmethoden für Videos zurückbleiben. Aus diesem Grund schlagen wir ein neuartiges Framework namens VideoREPA vor, das das physikalische Verständnis aus Video-Verständnis-Foundation-Modellen in T2V-Modelle überträgt, indem es Token-Level-Beziehungen ausrichtet. Dies schließt die Lücke im physikalischen Verständnis und ermöglicht eine physikalisch plausiblere Generierung. Konkret führen wir den Token Relation Distillation (TRD) Verlust ein, der räumlich-zeitliche Ausrichtung nutzt, um eine sanfte Führung für das Feinabstimmen leistungsstarker, vortrainierter T2V-Modelle zu bieten – ein entscheidender Unterschied zu früheren Repräsentationsausrichtungsmethoden (REPA). Unseres Wissens ist VideoREPA die erste REPA-Methode, die für das Feinabstimmen von T2V-Modellen und speziell für die Einbringung physikalischen Wissens entwickelt wurde. Empirische Auswertungen zeigen, dass VideoREPA das physikalische Allgemeinwissen der Basismethode CogVideoX erheblich verbessert, signifikante Fortschritte bei relevanten Benchmarks erzielt und eine starke Fähigkeit zur Erzeugung von Videos demonstriert, die mit intuitiver Physik übereinstimmen. Weitere Videoergebnisse sind unter https://videorepa.github.io/ verfügbar.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled
high-fidelity and realistic video synthesis. However, current T2V models often
struggle to generate physically plausible content due to their limited inherent
ability to accurately understand physics. We found that while the
representations within T2V models possess some capacity for physics
understanding, they lag significantly behind those from recent video
self-supervised learning methods. To this end, we propose a novel framework
called VideoREPA, which distills physics understanding capability from video
understanding foundation models into T2V models by aligning token-level
relations. This closes the physics understanding gap and enable more
physics-plausible generation. Specifically, we introduce the Token Relation
Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft
guidance suitable for finetuning powerful pre-trained T2V models, a critical
departure from prior representation alignment (REPA) methods. To our knowledge,
VideoREPA is the first REPA method designed for finetuning T2V models and
specifically for injecting physical knowledge. Empirical evaluations show that
VideoREPA substantially enhances the physics commonsense of baseline method,
CogVideoX, achieving significant improvement on relevant benchmarks and
demonstrating a strong capacity for generating videos consistent with intuitive
physics. More video results are available at https://videorepa.github.io/.