ChatPaper.aiChatPaper

VideoREPA: 파운데이션 모델과의 관계적 정렬을 통해 비디오 생성을 위한 물리학 학습

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

May 29, 2025
저자: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI

초록

최근 텍스트-투-비디오(T2V) 확산 모델의 발전으로 고화질이고 사실적인 비디오 합성이 가능해졌습니다. 그러나 현재의 T2V 모델들은 물리학을 정확히 이해하는 능력이 제한적이어서 물리적으로 타당한 콘텐츠를 생성하는 데 어려움을 겪고 있습니다. 우리는 T2V 모델 내부의 표현들이 어느 정도 물리학 이해 능력을 갖추고 있지만, 최근의 비디오 자기 지도 학습 방법들에 비해 크게 뒤처져 있음을 발견했습니다. 이를 해결하기 위해, 우리는 VideoREPA라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 비디오 이해 기반 모델로부터 물리학 이해 능력을 T2V 모델로 전이시키기 위해 토큰 수준의 관계를 정렬합니다. 이를 통해 물리학 이해 격차를 줄이고 더 물리적으로 타당한 생성이 가능해집니다. 구체적으로, 우리는 Token Relation Distillation (TRD) 손실을 도입하여, 공간-시간 정렬을 활용해 강력한 사전 학습된 T2V 모델을 미세 조정하기에 적합한 소프트 가이드를 제공합니다. 이는 기존의 표현 정렬(REPA) 방법들과는 차별화된 접근입니다. 우리가 아는 한, VideoREPA는 T2V 모델을 미세 조정하고 특히 물리학 지식을 주입하기 위해 설계된 최초의 REPA 방법입니다. 실험 평가 결과, VideoREPA는 베이스라인 방법인 CogVideoX의 물리학 상식을 크게 향상시켰으며, 관련 벤치마크에서 상당한 개선을 달성하고 직관적인 물리학과 일관된 비디오를 생성하는 강력한 능력을 보여주었습니다. 더 많은 비디오 결과는 https://videorepa.github.io/에서 확인할 수 있습니다.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled high-fidelity and realistic video synthesis. However, current T2V models often struggle to generate physically plausible content due to their limited inherent ability to accurately understand physics. We found that while the representations within T2V models possess some capacity for physics understanding, they lag significantly behind those from recent video self-supervised learning methods. To this end, we propose a novel framework called VideoREPA, which distills physics understanding capability from video understanding foundation models into T2V models by aligning token-level relations. This closes the physics understanding gap and enable more physics-plausible generation. Specifically, we introduce the Token Relation Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft guidance suitable for finetuning powerful pre-trained T2V models, a critical departure from prior representation alignment (REPA) methods. To our knowledge, VideoREPA is the first REPA method designed for finetuning T2V models and specifically for injecting physical knowledge. Empirical evaluations show that VideoREPA substantially enhances the physics commonsense of baseline method, CogVideoX, achieving significant improvement on relevant benchmarks and demonstrating a strong capacity for generating videos consistent with intuitive physics. More video results are available at https://videorepa.github.io/.
PDF242June 6, 2025