World-R1: Verstärkung von 3D-Beschränkungen für die Text-zu-Video-Generierung

Zusammenfassung

Aktuelle Video-Foundation-Modelle zeigen beeindruckende visuelle Syntheseleistungen, leiden jedoch häufig unter geometrischen Inkonsistenzen. Während bestehende Methoden versuchen, 3D-Prior-Wissen durch Architekturmodifikationen zu integrieren, verursachen diese oft hohe Rechenkosten und schränken die Skalierbarkeit ein. Wir präsentieren World-R1, ein Framework, das die Videogenerierung durch Reinforcement Learning mit 3D-Randbedingungen in Einklang bringt. Um diese Abstimmung zu ermöglichen, führen wir einen spezialisierten Pure-Text-Datensatz ein, der auf Weltsimulation zugeschnitten ist. Unter Verwendung von Flow-GRPO optimieren wir das Modell anhand von Feedback vortrainierter 3D-Foundation-Modelle und Vision-Language-Modelle, um strukturelle Kohärenz ohne Änderung der zugrundeliegenden Architektur zu erzwingen. Weiterhin setzen wir eine periodische entkoppelte Trainingsstrategie ein, um starre geometrische Konsistenz mit dynamischer Szenenflüssigkeit auszubalancieren. Umfassende Evaluationen zeigen, dass unser Ansatz die 3D-Konsistenz signifikant verbessert und gleichzeitig die ursprüngliche visuelle Qualität des Foundation-Modells bewahrt, wodurch effektiv die Lücke zwischen Videogenerierung und skalierbarer Weltsimulation geschlossen wird.

English

Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.

World-R1: Verstärkung von 3D-Beschränkungen für die Text-zu-Video-Generierung

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Zusammenfassung

Support