World-R1: Усиление 3D-ограничений для генерации видео из текста

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

April 27, 2026
Авторы: Weijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang
cs.AI

Аннотация

Современные фоновые модели для видео демонстрируют впечатляющие возможности визуального синтеза, но часто страдают от геометрических несоответствий. Хотя существующие методы пытаются внедрить 3D-приоры через архитектурные модификации, они обычно сопряжены с высокими вычислительными затратами и ограничивают масштабируемость. Мы предлагаем World-R1 — фреймворк, который выравнивает генерацию видео в соответствии с 3D-ограничениями с помощью обучения с подкреплением. Для облегчения этого выравнивания мы представляем специализированный текстовый датасет, адаптированный для симуляции мира. Используя Flow-GRPO, мы оптимизируем модель на основе обратной связи от предварительно обученных 3D-фоновых моделей и моделей "визуальный язык", чтобы обеспечить структурную согласованность без изменения базовой архитектуры. Дополнительно мы применяем периодическую стратегию раздельного обучения для балансировки жесткой геометрической согласованности и динамической плавности сцены. Масштабные оценки показывают, что наш подход существенно улучшает 3D-консистентность, сохраняя исходное визуальное качество фоновой модели, эффективно устраняя разрыв между генерацией видео и масштабируемой симуляцией мира.
English
Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.
PDF952April 29, 2026