World-R1: Rafforzamento dei Vincoli 3D per la Generazione Video da Testo
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
April 27, 2026
Autori: Weijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang
cs.AI
Abstract
I recenti modelli video foundation mostrano un'impressionante sintesi visiva ma soffrono frequentemente di incoerenze geometriche. Sebbene i metodi esistenti tentino di iniettare prior 3D tramite modifiche architetturali, questi spesso comportano elevati costi computazionali e limitano la scalabilità. Proponiamo World-R1, un framework che allinea la generazione video con vincoli 3D attraverso l'apprendimento per rinforzo. Per facilitare questo allineamento, introduciamo un dataset testuale specializzato e mirato per la simulazione del mondo. Utilizzando Flow-GRBO, ottimizziamo il modello sfruttando feedback da modelli foundation 3D pre-addestrati e modelli visione-linguaggio per imporre coerenza strutturale senza alterare l'architettura sottostante. Impieghiamo inoltre una strategia di addestramento periodico disaccoppiato per bilanciare la rigida coerenza geometrica con la fluidità dinamica della scena. Valutazioni estensive rivelano che il nostro approccio migliora significativamente la consistenza 3D preservando la qualità visiva originale del modello foundation, colmando efficacemente il divario tra generazione video e simulazione del mondo scalabile.
English
Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.