ChatPaper.aiChatPaper

WorldForge: Ermöglichung emergenter 3D/4D-Generierung in Video-Diffusionsmodellen durch trainingsfreie Steuerung

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

September 18, 2025
papers.authors: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI

papers.abstract

Aktuelle Video-Diffusionsmodelle zeigen ein starkes Potenzial bei räumlichen Intelligenzaufgaben aufgrund ihrer umfangreichen latenten Welt-Priors. Dieses Potenzial wird jedoch durch ihre begrenzte Steuerbarkeit und geometrische Inkonsistenz eingeschränkt, was eine Lücke zwischen ihren starken Priors und ihrer praktischen Anwendung in 3D/4D-Aufgaben schafft. Infolgedessen greifen aktuelle Ansätze oft auf Neuanpassung oder Feinabstimmung zurück, was das Risiko birgt, vortrainiertes Wissen zu verschlechtern und hohe Rechenkosten verursacht. Um dies zu beheben, schlagen wir WorldForge vor, ein trainingsfreies, Inferenzzeit-Framework, das aus drei eng gekoppelten Modulen besteht. Intra-Step Recursive Refinement führt einen rekursiven Verfeinerungsmechanismus während der Inferenz ein, der die Netzwerkvorhersagen innerhalb jedes Denoising-Schritts wiederholt optimiert, um eine präzise Trajektorieninjektion zu ermöglichen. Flow-Gated Latent Fusion nutzt die Ähnlichkeit des optischen Flusses, um Bewegung von Erscheinung im latenten Raum zu entkoppeln und selektiv Trajektorienführung in bewegungsbezogene Kanäle zu injizieren. Dual-Path Self-Corrective Guidance vergleicht geführte und ungeführte Denoising-Pfade, um Trajektoriendrift, die durch verrauschte oder falsch ausgerichtete Struktursignale verursacht wird, adaptiv zu korrigieren. Zusammen ermöglichen diese Komponenten die Injektion fein abgestimmter, trajektorienausgerichteter Führung ohne Training, wodurch sowohl eine präzise Bewegungssteuerung als auch fotorealistische Inhaltsgenerierung erreicht wird. Umfangreiche Experimente über diverse Benchmarks bestätigen die Überlegenheit unserer Methode in Bezug auf Realismus, Trajektorienkonsistenz und visuelle Treue. Diese Arbeit führt ein neuartiges Plug-and-Play-Paradigma für kontrollierbare Videosynthese ein und bietet eine neue Perspektive auf die Nutzung generativer Priors für räumliche Intelligenz.
English
Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.
PDF303September 19, 2025