ChatPaper.aiChatPaper

PhyGDPO: Physics-Aware Groepsgewijze Directe Preferentieoptimalisatie voor Fysisch Consistente Tekst-naar-Video Generatie

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

December 31, 2025
Auteurs: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-video (T2V) generatie heeft een goede visuele kwaliteit bereikt, maar het synthetiseren van video's die de natuurwetten nauwgezet volgen, blijft een uitdaging. Bestaande methoden, voornamelijk gebaseerd op graphics of promptuitbreiding, hebben moeite om te generaliseren voorbij eenvoudige gesimuleerde omgevingen of om impliciet fysisch redeneren aan te leren. Ook de schaarste aan trainingsdata met rijke fysica-interacties en -fenomenen is een probleem. In dit artikel introduceren we eerst een Physics-Augmented videodata-constructiepijplijn, PhyAugPipe, die gebruikmaakt van een vision-language model (VLM) met chain-of-thought redenering om een grootschalige trainingsdataset, PhyVidGen-135K, te verzamelen. Vervolgens formuleren we een principieel Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, raamwerk dat voortbouwt op het groupwise Plackett-Luce probabilistische model om holistische voorkeuren te vangen die verder gaan dan paarsgewijze vergelijkingen. In PhyGDPO ontwerpen we een Physics-Guided Rewarding (PGR) schema dat VLM-gebaseerde fysica-beloningen inbedt om de optimalisatie naar fysische consistentie te sturen. We stellen ook een LoRA-Switch Reference (LoRA-SR) schema voor dat geheugenintensieve referentieduplicatie elimineert voor efficiënte training. Experimenten tonen aan dat onze methode de state-of-the-art open-source methoden aanzienlijk overtreft op PhyGenBench en VideoPhy2. Ga naar onze projectpagina https://caiyuanhao1998.github.io/project/PhyGDPO voor meer videoresultaten. Onze code, modellen en data worden vrijgegeven op https://github.com/caiyuanhao1998/Open-PhyGDPO.
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO
PDF174January 4, 2026