VideoREPA: Apprendimento della Fisica per la Generazione di Video attraverso l'Allineamento Relazionale con Modelli di Base
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
May 29, 2025
Autori: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI
Abstract
I recenti progressi nei modelli di diffusione testo-video (T2V) hanno reso possibile la sintesi di video ad alta fedeltà e realistici. Tuttavia, gli attuali modelli T2V spesso incontrano difficoltà nel generare contenuti fisicamente plausibili a causa della loro limitata capacità intrinseca di comprendere accuratamente la fisica. Abbiamo osservato che, sebbene le rappresentazioni all'interno dei modelli T2V possiedano una certa capacità di comprensione della fisica, esse rimangono significativamente indietro rispetto a quelle ottenute dai recenti metodi di apprendimento auto-supervisionato su video. A tal fine, proponiamo un nuovo framework chiamato VideoREPA, che distilla la capacità di comprensione della fisica da modelli di comprensione video di base nei modelli T2V, allineando le relazioni a livello di token. Questo colma il divario nella comprensione della fisica e consente una generazione più plausibile dal punto di vista fisico. Nello specifico, introduciamo la perdita di distillazione delle relazioni tra token (Token Relation Distillation, TRD), sfruttando l'allineamento spazio-temporale per fornire una guida soft adatta al fine-tuning di potenti modelli T2V pre-addestrati, un approccio che si discosta criticamente dai precedenti metodi di allineamento delle rappresentazioni (REPA). A nostra conoscenza, VideoREPA è il primo metodo REPA progettato per il fine-tuning di modelli T2V e specificamente per l'iniezione di conoscenza fisica. Le valutazioni empiriche dimostrano che VideoREPA migliora sostanzialmente il senso comune fisico del metodo di base, CogVideoX, ottenendo un significativo miglioramento sui benchmark rilevanti e dimostrando una forte capacità di generare video coerenti con la fisica intuitiva. Ulteriori risultati video sono disponibili all'indirizzo https://videorepa.github.io/.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled
high-fidelity and realistic video synthesis. However, current T2V models often
struggle to generate physically plausible content due to their limited inherent
ability to accurately understand physics. We found that while the
representations within T2V models possess some capacity for physics
understanding, they lag significantly behind those from recent video
self-supervised learning methods. To this end, we propose a novel framework
called VideoREPA, which distills physics understanding capability from video
understanding foundation models into T2V models by aligning token-level
relations. This closes the physics understanding gap and enable more
physics-plausible generation. Specifically, we introduce the Token Relation
Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft
guidance suitable for finetuning powerful pre-trained T2V models, a critical
departure from prior representation alignment (REPA) methods. To our knowledge,
VideoREPA is the first REPA method designed for finetuning T2V models and
specifically for injecting physical knowledge. Empirical evaluations show that
VideoREPA substantially enhances the physics commonsense of baseline method,
CogVideoX, achieving significant improvement on relevant benchmarks and
demonstrating a strong capacity for generating videos consistent with intuitive
physics. More video results are available at https://videorepa.github.io/.