World-R1: Reforzando Restricciones 3D para la Generación de Vídeo a Partir de Texto

Resumen

Los modelos fundacionales de video recientes demuestran una síntesis visual impresionante, pero frecuentemente adolecen de inconsistencias geométricas. Si bien los métodos existentes intentan inyectar conocimientos previos 3D mediante modificaciones arquitectónicas, a menudo incurren en altos costos computacionales y limitan la escalabilidad. Proponemos World-R1, un marco que alinea la generación de video con restricciones 3D mediante aprendizaje por refuerzo. Para facilitar esta alineación, presentamos un conjunto de datos especializado de texto puro diseñado para simulación de mundos. Utilizando Flow-GRPO, optimizamos el modelo mediante retroalimentación de modelos fundacionales 3D preentrenados y modelos de visión y lenguaje para imponer coherencia estructural sin alterar la arquitectura subyacente. Además, empleamos una estrategia de entrenamiento periódico desacoplado para equilibrar la consistencia geométrica rígida con la fluidez dinámica de la escena. Evaluaciones exhaustivas revelan que nuestro enfoque mejora significativamente la consistencia 3D mientras preserva la calidad visual original del modelo fundacional, cerrando efectivamente la brecha entre la generación de video y la simulación escalable de mundos.

English

Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.

World-R1: Reforzando Restricciones 3D para la Generación de Vídeo a Partir de Texto

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Resumen

Support