PhyGDPO: Ottimizzazione Diretta delle Preferenze per Gruppi Consapevole della Fisica per la Generazione Video da Testo Fisicamente Coerente

Abstract

I recenti progressi nella generazione testo-video (T2V) hanno raggiunto una buona qualità visiva, ma la sintesi di video che seguano fedelmente le leggi fisiche rimane una sfida aperta. I metodi esistenti, basati principalmente sulla grafica o sull'estensione dei prompt, faticano a generalizzare oltre ambienti simulati semplici o ad apprendere un ragionamento fisico implicito. Anche la scarsità di dati di addestramento con interazioni e fenomeni fisici ricchi costituisce un problema. In questo articolo, introduciamo innanzitutto una pipeline di costruzione di dati video arricchiti con la fisica, PhyAugPipe, che sfrutta un modello visione-linguaggio (VLM) con ragionamento a catena di pensiero per raccogliere un ampio dataset di addestramento, PhyVidGen-135K. Successivamente, formuliamo un framework principiato di ottimizzazione diretta delle preferenze di gruppo consapevole della fisica, PhyGDPO, che si basa sul modello probabilistico di Plackett-Luce di gruppo per catturare preferenze olistiche che vadano oltre i confronti a coppie. In PhyGDPO, progettiamo uno schema di ricompensa guidata dalla fisica (PGR) che incorpora ricompense fisiche basate su VLM per orientare l'ottimizzazione verso la coerenza fisica. Proponiamo inoltre uno schema di riferimento a commutazione LoRA (LoRA-SR) che elimina la duplicazione dei riferimenti onerosa per la memoria, consentendo un addestramento efficiente. Gli esperimenti mostrano che il nostro metodo supera significamente i metodi open-source all'avanguardia su PhyGenBench e VideoPhy2. Si prega di consultare la nostra pagina del progetto all'indirizzo https://caiyuanhao1998.github.io/project/PhyGDPO per ulteriori risultati video. Il nostro codice, modelli e dati saranno rilasciati all'indirizzo https://github.com/caiyuanhao1998/Open-PhyGDPO.

English

Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO

PhyGDPO: Ottimizzazione Diretta delle Preferenze per Gruppi Consapevole della Fisica per la Generazione Video da Testo Fisicamente Coerente

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Abstract

Support