World-R1 : Renforcement des contraintes 3D pour la génération vidéo à partir de texte

Résumé

Les modèles vidéo de fondation récents démontrent une impressionnante synthèse visuelle mais souffrent fréquemment d'incohérences géométriques. Bien que les méthodes existantes tentent d'injecter des préconisations 3D via des modifications architecturales, elles entraînent souvent des coûts computationnels élevés et limitent l'évolutivité. Nous proposons World-R1, un cadre qui aligne la génération vidéo avec des contraintes 3D grâce à l'apprentissage par renforcement. Pour faciliter cet alignement, nous introduisons un jeu de données textuel pur spécialisé, conçu pour la simulation du monde. En utilisant Flow-GRPO, nous optimisons le modèle à l'aide de retours provenant de modèles de fondation 3D pré-entraînés et de modèles vision-langage pour imposer une cohérence structurelle sans modifier l'architecture sous-jacente. Nous employons en outre une stratégie d'entraînement découplée périodique pour équilibrer la rigidité de la cohérence géométrique avec la fluidité dynamique de la scène. Des évaluations approfondies révèlent que notre approche améliore significativement la cohérence 3D tout en préservant la qualité visuelle originale du modèle de fondation, comblant efficacement le fossé entre la génération vidéo et la simulation du monde évolutive.

English

Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.

World-R1 : Renforcement des contraintes 3D pour la génération vidéo à partir de texte

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Résumé

Support