ChatPaper.aiChatPaper

PhyGDPO: Optimización Grupal Directa de Preferencias con Conciencia Física para la Generación Texto-Video Físicamente Consistente

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

December 31, 2025
Autores: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI

Resumen

Los recientes avances en generación de texto a vídeo (T2V) han logrado una buena calidad visual, pero sintetizar vídeos que sigan fielmente las leyes físicas sigue siendo un desafío pendiente. Los métodos existentes, basados principalmente en gráficos o extensión de instrucciones, tienen dificultades para generalizar más allá de entornos simulados simples o para aprender razonamiento físico implícito. La escasez de datos de entrenamiento con interacciones y fenómenos físicos ricos también es un problema. En este artículo, primero presentamos un Pipeline de construcción de datos de vídeo aumentado con física, PhyAugPipe, que aprovecha un modelo de visión y lenguaje (VLM) con razonamiento en cadena de pensamiento para recopilar un conjunto de datos de entrenamiento a gran escala, PhyVidGen-135K. Luego, formulamos un marco de Optimización de Preferencias Directas por Grupos con Conciencia Física, PhyGDPO, fundamentado que se basa en el modelo probabilístico de Plackett-Luce por grupos para capturar preferencias holísticas más allá de las comparaciones por pares. En PhyGDPO, diseñamos un esquema de Recompensa Guiada por la Física (PGR) que incorpora recompensas físicas basadas en VLM para dirigir la optimización hacia la consistencia física. También proponemos un esquema de Referencia de Conmutación LoRA (LoRA-SR) que elimina la duplicación de referencias que consume mucha memoria para un entrenamiento eficiente. Los experimentos muestran que nuestro método supera significativamente a los métodos de código abierto más avanzados en PhyGenBench y VideoPhy2. Consulte nuestra página del proyecto en https://caiyuanhao1998.github.io/project/PhyGDPO para ver más resultados en vídeo. Nuestro código, modelos y datos se publicarán en https://github.com/caiyuanhao1998/Open-PhyGDPO.
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO
PDF122January 2, 2026