World-R1: 텍스트-비디오 생성을 위한 3D 제약 조건 강화
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
April 27, 2026
저자: Weijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang
cs.AI
초록
최근의 비디오 파운데이션 모델은 인상적인 영상 합성 능력을 보여주지만 기하학적 불일치 문제가 빈번하게 발생합니다. 기존 방법들은 구조적 수정을 통해 3D 사전 지식을 주입하려 시도하지만, 높은 계산 비용이 발생하고 확장성을 제한하는 경우가 많습니다. 우리는 강화 학습을 통해 비디오 생성과 3D 제약 조건을 정렬하는 World-R1 프레임워크를 제안합니다. 이러한 정렬을 용이하게 하기 위해 세계 시뮬레이션에 특화된 순수 텍스트 데이터셋을 도입했습니다. Flow-GRPO를 활용하여 사전 학습된 3D 파운데이션 모델과 비전-언어 모델의 피드백을 통해 기본 구조 변경 없이 구조적 일관성을 강화합니다. 더 나아가 주기적 분리 학습 전략을 적용하여 엄격한 기하학적 일관성과 동적 장면 유동성 사이의 균형을 조정합니다. 폭넓은 평가 결과, 우리의 접근 방식이 파운데이션 모델의 원본 화질을 보존하면서 3D 일관성을 크게 향상시켜 비디오 생성과 확장 가능한 세계 시뮬레이션 간의 격차를 효과적으로 해소함을 확인했습니다.
English
Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.