World-R1: Reforçando Restrições 3D para Geração de Vídeo a Partir de Texto
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
April 27, 2026
Autores: Weijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang
cs.AI
Resumo
Os modelos de fundação de vídeo recentes demonstram síntese visual impressionante, mas frequentemente apresentam inconsistências geométricas. Embora os métodos existentes tentem injetar conhecimentos prévios de 3D através de modificações arquiteturais, eles geralmente incorrem em altos custos computacionais e limitam a escalabilidade. Propomos o World-R1, uma estrutura que alinha a geração de vídeo com restrições 3D através de aprendizado por reforço. Para facilitar esse alinhamento, introduzimos um conjunto de dados especializado de texto puro adaptado para simulação mundial. Utilizando Flow-GRPO, otimizamos o modelo usando feedback de modelos de fundação 3D pré-treinados e modelos visão-linguagem para impor coerência estrutural sem alterar a arquitetura subjacente. Empregamos ainda uma estratégia de treinamento periódico desacoplado para equilibrar a consistência geométrica rígida com a fluidez dinâmica da cena. Avaliações extensivas revelam que nossa abordagem melhora significativamente a consistência 3D enquanto preserva a qualidade visual original do modelo de fundação, efetivamente preenchendo a lacuna entre geração de vídeo e simulação mundial escalável.
English
Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.