WorldForge: Ermöglichung emergenter 3D/4D-Generierung in Video-Diffusionsmodellen durch trainingsfreie Steuerung
WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
September 18, 2025
papers.authors: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI
papers.abstract
Aktuelle Video-Diffusionsmodelle zeigen ein starkes Potenzial bei räumlichen Intelligenzaufgaben aufgrund ihrer umfangreichen latenten Welt-Priors. Dieses Potenzial wird jedoch durch ihre begrenzte Steuerbarkeit und geometrische Inkonsistenz eingeschränkt, was eine Lücke zwischen ihren starken Priors und ihrer praktischen Anwendung in 3D/4D-Aufgaben schafft. Infolgedessen greifen aktuelle Ansätze oft auf Neuanpassung oder Feinabstimmung zurück, was das Risiko birgt, vortrainiertes Wissen zu verschlechtern und hohe Rechenkosten verursacht. Um dies zu beheben, schlagen wir WorldForge vor, ein trainingsfreies, Inferenzzeit-Framework, das aus drei eng gekoppelten Modulen besteht. Intra-Step Recursive Refinement führt einen rekursiven Verfeinerungsmechanismus während der Inferenz ein, der die Netzwerkvorhersagen innerhalb jedes Denoising-Schritts wiederholt optimiert, um eine präzise Trajektorieninjektion zu ermöglichen. Flow-Gated Latent Fusion nutzt die Ähnlichkeit des optischen Flusses, um Bewegung von Erscheinung im latenten Raum zu entkoppeln und selektiv Trajektorienführung in bewegungsbezogene Kanäle zu injizieren. Dual-Path Self-Corrective Guidance vergleicht geführte und ungeführte Denoising-Pfade, um Trajektoriendrift, die durch verrauschte oder falsch ausgerichtete Struktursignale verursacht wird, adaptiv zu korrigieren. Zusammen ermöglichen diese Komponenten die Injektion fein abgestimmter, trajektorienausgerichteter Führung ohne Training, wodurch sowohl eine präzise Bewegungssteuerung als auch fotorealistische Inhaltsgenerierung erreicht wird. Umfangreiche Experimente über diverse Benchmarks bestätigen die Überlegenheit unserer Methode in Bezug auf Realismus, Trajektorienkonsistenz und visuelle Treue. Diese Arbeit führt ein neuartiges Plug-and-Play-Paradigma für kontrollierbare Videosynthese ein und bietet eine neue Perspektive auf die Nutzung generativer Priors für räumliche Intelligenz.
English
Recent video diffusion models demonstrate strong potential in spatial
intelligence tasks due to their rich latent world priors. However, this
potential is hindered by their limited controllability and geometric
inconsistency, creating a gap between their strong priors and their practical
use in 3D/4D tasks. As a result, current approaches often rely on retraining or
fine-tuning, which risks degrading pretrained knowledge and incurs high
computational costs. To address this, we propose WorldForge, a training-free,
inference-time framework composed of three tightly coupled modules. Intra-Step
Recursive Refinement introduces a recursive refinement mechanism during
inference, which repeatedly optimizes network predictions within each denoising
step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages
optical flow similarity to decouple motion from appearance in the latent space
and selectively inject trajectory guidance into motion-related channels.
Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths
to adaptively correct trajectory drift caused by noisy or misaligned structural
signals. Together, these components inject fine-grained, trajectory-aligned
guidance without training, achieving both accurate motion control and
photorealistic content generation. Extensive experiments across diverse
benchmarks validate our method's superiority in realism, trajectory
consistency, and visual fidelity. This work introduces a novel plug-and-play
paradigm for controllable video synthesis, offering a new perspective on
leveraging generative priors for spatial intelligence.