World-R1: Versterking van 3D-beperkingen voor tekst-naar-video-generatie

Samenvatting

Recente videofundamentmodellen tonen indrukwekkende visuele synthese, maar lijden vaak aan geometrische inconsistenties. Hoewel bestaande methoden proberen 3D-prioriteiten in te brengen via architecturale aanpassingen, brengen deze vaak hoge computationele kosten met zich mee en beperken ze de schaalbaarheid. Wij presenteren World-R1, een raamwerk dat videogeneratie afstemt op 3D-beperkingen door middel van reinforcement learning. Om deze afstemming te vergemakkelijken, introduceren we een gespecialiseerde pure tekstdataset toegesneden op wereldsimulatie. Met behulp van Flow-GRPO optimaliseren we het model met feedback van vooraf getrainde 3D-fundamentmodellen en vision-language modellen om structurele samenhang af te dwingen zonder de onderliggende architectuur aan te passen. We hanteren verder een periodieke ontkoppelde trainingsstrategie om rigide geometrische consistentie in evenwicht te brengen met dynamische scènevloeiendheid. Uitgebreide evaluaties tonen aan dat onze aanpak de 3D-consistentie aanzienlijk verbetert terwijl de oorspronkelijke visuele kwaliteit van het fundamentmodel behouden blijft, waardoor de kloof tussen videogeneratie en schaalbare wereldsimulatie effectief wordt overbrugd.

English

Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.

World-R1: Versterking van 3D-beperkingen voor tekst-naar-video-generatie

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Samenvatting

Support