PhyGDPO: 물리적 일관성 있는 텍스트-비디오 생성을 위한 물리 인식 그룹 단위 직접 선호도 최적화
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
December 31, 2025
저자: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI
초록
텍스트-비디오(T2V) 생성 분야의 최근 발전은 우수한 시각적 품질을 달성했으나, 물리 법칙을 충실히 따르는 비디오 합성은 여전히 해결 과제로 남아 있습니다. 그래픽 기반 또는 프롬프트 확장에 주로 의존하는 기존 방법론들은 단순한 시뮬레이션 환경을 벗어나거나 암묵적인 물리 추론을 학습하는 데 일반화하기 어렵습니다. 또한 풍부한 물리적 상호작용과 현상을 포함한 훈련 데이터의 부족 역시 문제입니다. 본 논문에서는 먼저 비전-언어 모델(VLM)과 사고 연쇄 추론을 활용하여 대규모 훈련 데이터셋인 PhyVidGen-135K를 수집하는 물리 증강 비디오 데이터 구축 파이프라인인 PhyAugPipe를 소개합니다. 그런 다음 쌍별 비교를 넘어선 전체적 선호도를捕捉하기 위해 그룹별 Plackett-Luce 확률 모델에 기반한 원리 기반의 물리 인식 그룹별 직접 선호 최적화 프레임워크인 PhyGDPO를 정형화합니다. PhyGDPO에서는 VLM 기반 물리 보상을 내재화하여 최적화가 물리적 일관성을 향하도록 유도하는 물리 유도 보상(PGR) 기법을 설계합니다. 또한 메모리 부담이 큰 참조 모델 복제를 제거하여 효율적인 훈련을 가능하게 하는 LoRA-스위치 참조(LoRA-SR) 기법도 제안합니다. 실험 결과, 우리의 방법은 PhyGenBench 및 VideoPhy2 벤치마크에서 최첨단 오픈소스 방법론들을 크게 능가하는 성능을 보입니다. 더 많은 비디오 결과는 프로젝트 페이지(https://caiyuanhao1998.github.io/project/PhyGDPO)에서 확인하실 수 있습니다. 코드, 모델 및 데이터는 https://github.com/caiyuanhao1998/Open-PhyGDPO에서 공개될 예정입니다.
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO