PhyGDPO: Otimização de Preferência Direta por Grupos com Consciência Física para Geração de Vídeo a partir de Texto Fisicamente Consistente

Resumo

Os recentes avanços na geração de texto-para-vídeo (T2V) alcançaram boa qualidade visual, mas a síntese de vídeos que sigam fielmente as leis da física continua sendo um desafio em aberto. Os métodos existentes, baseados principalmente em gráficos ou extensão de prompts, lutam para generalizar além de ambientes simulados simples ou para aprender raciocínio físico implícito. A escassez de dados de treinamento com interações e fenômenos físicos ricos também é um problema. Neste artigo, apresentamos primeiro um Pipeline de construção de dados de vídeo Aumentado por Física, PhyAugPipe, que aproveita um modelo de visão e linguagem (VLM) com raciocínio em cadeia de pensamento para coletar um conjunto de dados de treinamento em larga escala, PhyVidGen-135K. Em seguida, formulamos uma estrutura principista de Otimização Direta de Preferência Grupal Consciente da Física, PhyGDPO, que se baseia no modelo probabilístico grupal de Plackett-Luce para capturar preferências holísticas além de comparações pareadas. Na PhyGDPO, projetamos um esquema de Recompensa Guiada pela Física (PGR) que incorpora recompensas físicas baseadas em VLM para direcionar a otimização para a consistência física. Também propomos um esquema de Referência de Comutação LoRA (LoRA-SR) que elimina a duplicação de referência com uso intensivo de memória para um treinamento eficiente. Os experimentos mostram que nosso método supera significativamente os métodos de código aberto mais avançados no PhyGenBench e no VideoPhy2. Por favor, consulte nossa página do projeto em https://caiyuanhao1998.github.io/project/PhyGDPO para mais resultados em vídeo. Nosso código, modelos e dados serão lançados em https://github.com/caiyuanhao1998/Open-PhyGDPO.

English

Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO

PhyGDPO: Otimização de Preferência Direta por Grupos com Consciência Física para Geração de Vídeo a partir de Texto Fisicamente Consistente

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Resumo

Support