VideoREPA: Aprendizaje de física para la generación de videos mediante alineación relacional con modelos fundacionales
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
May 29, 2025
Autores: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI
Resumen
Los recientes avances en los modelos de difusión de texto a video (T2V) han permitido la síntesis de videos de alta fidelidad y realismo. Sin embargo, los modelos T2V actuales a menudo tienen dificultades para generar contenido físicamente plausible debido a su capacidad inherente limitada para comprender con precisión la física. Descubrimos que, aunque las representaciones dentro de los modelos T2V poseen cierta capacidad para entender la física, están significativamente por detrás de las obtenidas mediante métodos recientes de aprendizaje autosupervisado en video. Con este fin, proponemos un marco novedoso llamado VideoREPA, que destila la capacidad de comprensión física de modelos fundamentales de comprensión de video en modelos T2V mediante la alineación de relaciones a nivel de tokens. Esto cierra la brecha en la comprensión física y permite una generación más plausible desde el punto de vista físico. Específicamente, introducimos la pérdida de Distilación de Relaciones de Tokens (TRD), aprovechando la alineación espacio-temporal para proporcionar una guía suave adecuada para el ajuste fino de modelos T2V preentrenados potentes, un enfoque críticamente diferente de los métodos previos de alineación de representaciones (REPA). Hasta donde sabemos, VideoREPA es el primer método REPA diseñado para el ajuste fino de modelos T2V y específicamente para inyectar conocimiento físico. Las evaluaciones empíricas muestran que VideoREPA mejora sustancialmente el sentido común físico del método base, CogVideoX, logrando una mejora significativa en los benchmarks relevantes y demostrando una fuerte capacidad para generar videos consistentes con la física intuitiva. Más resultados de video están disponibles en https://videorepa.github.io/.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled
high-fidelity and realistic video synthesis. However, current T2V models often
struggle to generate physically plausible content due to their limited inherent
ability to accurately understand physics. We found that while the
representations within T2V models possess some capacity for physics
understanding, they lag significantly behind those from recent video
self-supervised learning methods. To this end, we propose a novel framework
called VideoREPA, which distills physics understanding capability from video
understanding foundation models into T2V models by aligning token-level
relations. This closes the physics understanding gap and enable more
physics-plausible generation. Specifically, we introduce the Token Relation
Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft
guidance suitable for finetuning powerful pre-trained T2V models, a critical
departure from prior representation alignment (REPA) methods. To our knowledge,
VideoREPA is the first REPA method designed for finetuning T2V models and
specifically for injecting physical knowledge. Empirical evaluations show that
VideoREPA substantially enhances the physics commonsense of baseline method,
CogVideoX, achieving significant improvement on relevant benchmarks and
demonstrating a strong capacity for generating videos consistent with intuitive
physics. More video results are available at https://videorepa.github.io/.