PhyGDPO: Physikbewusste gruppenweise direkte Präferenzoptimierung für physikalisch konsistente Text-zu-Video-Generierung
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
December 31, 2025
papers.authors: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI
papers.abstract
Aktuelle Fortschritte in der Text-zu-Video (T2V)-Generierung haben eine gute visuelle Qualität erreicht, doch die Synthese von Videos, die physikalischen Gesetzen treu folgen, bleibt eine ungelöste Herausforderung. Bestehende Methoden, die hauptsächlich auf Grafik oder Prompt-Erweiterung basieren, haben Schwierigkeiten, über einfache simulierte Umgebungen hinaus zu generalisieren oder implizites physikalisches Reasoning zu erlernen. Die Knappheit an Trainingsdaten mit umfangreichen physikalischen Interaktionen und Phänomenen ist ebenfalls ein Problem. In dieser Arbeit stellen wir zunächst eine Physik-Augmentierte Videodaten-Konstruktions-Pipeline, PhyAugPipe, vor, die ein Vision-Language-Model (VLM) mit Chain-of-Thought-Reasoning nutzt, um einen großen Trainingsdatensatz, PhyVidGen-135K, zu sammeln. Anschließend formulieren wir einen prinzipienbasierten Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, Rahmen, der auf dem gruppenweisen Plackett-Luce-Wahrscheinlichkeitsmodell aufbaut, um holistische Präferenzen über paarweise Vergleiche hinaus zu erfassen. In PhyGDPO entwerfen wir ein Physics-Guided Rewarding (PGR)-Schema, das VLM-basierte Physik-Belohnungen einbettet, um die Optimierung in Richtung physikalischer Konsistenz zu steuern. Wir schlagen außerdem ein LoRA-Switch Reference (LoRA-SR)-Schema vor, das speicherintensive Referenzduplizierung zur effizienten Trainingseliminiert. Experimente zeigen, dass unsere Methode state-of-the-art Open-Source-Methoden auf PhyGenBench und VideoPhy2 signifikant übertrifft. Weitere Videoergebnisse finden Sie auf unserer Projektseite unter https://caiyuanhao1998.github.io/project/PhyGDPO. Unser Code, Modelle und Daten werden unter https://github.com/caiyuanhao1998/Open-PhyGDPO veröffentlicht.
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO