WorldForge: Het Ontgrendelen van Emergente 3D/4D Generatie in Videodiffusiemodellen via Trainingsvrije Begeleiding
WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
September 18, 2025
Auteurs: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI
Samenvatting
Recente videodiffusiemodellen tonen een sterk potentieel in ruimtelijke intelligentietaken dankzij hun rijke latente wereldpriors. Dit potentieel wordt echter belemmerd door hun beperkte bestuurbaarheid en geometrische inconsistentie, wat een kloof creëert tussen hun sterke priors en hun praktische toepassing in 3D/4D-taken. Als gevolg vertrouwen huidige benaderingen vaak op hertraining of fine-tuning, wat het risico loopt om vooraf getrainde kennis te verslechteren en hoge rekenkosten met zich meebrengt. Om dit aan te pakken, stellen we WorldForge voor, een trainingsvrij, inferentie-tijd framework dat bestaat uit drie nauw verbonden modules. Intra-Step Recursive Refinement introduceert een recursief verfijningsmechanisme tijdens inferentie, dat de netwerkvoorspellingen binnen elke denoisestap herhaaldelijk optimaliseert om precieze trajectinjectie mogelijk te maken. Flow-Gated Latent Fusion maakt gebruik van optische stroomsimilariteit om beweging van uiterlijk in de latente ruimte te ontkoppelen en selectief trajectbegeleiding in bewegingsgerelateerde kanalen te injecteren. Dual-Path Self-Corrective Guidance vergelijkt geleide en niet-geleide denoisepaden om adaptief trajectdrift veroorzaakt door ruisachtige of verkeerd uitgelijnde structurele signalen te corrigeren. Samen injecteren deze componenten fijnmazige, trajectuitgelijnde begeleiding zonder training, waardoor zowel nauwkeurige bewegingcontrole als fotorealistische contentgeneratie wordt bereikt. Uitgebreide experimenten over diverse benchmarks valideren de superioriteit van onze methode in realisme, trajectconsistentie en visuele getrouwheid. Dit werk introduceert een nieuw plug-and-play paradigma voor bestuurbare videosynthese, en biedt een nieuw perspectief op het benutten van generatieve priors voor ruimtelijke intelligentie.
English
Recent video diffusion models demonstrate strong potential in spatial
intelligence tasks due to their rich latent world priors. However, this
potential is hindered by their limited controllability and geometric
inconsistency, creating a gap between their strong priors and their practical
use in 3D/4D tasks. As a result, current approaches often rely on retraining or
fine-tuning, which risks degrading pretrained knowledge and incurs high
computational costs. To address this, we propose WorldForge, a training-free,
inference-time framework composed of three tightly coupled modules. Intra-Step
Recursive Refinement introduces a recursive refinement mechanism during
inference, which repeatedly optimizes network predictions within each denoising
step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages
optical flow similarity to decouple motion from appearance in the latent space
and selectively inject trajectory guidance into motion-related channels.
Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths
to adaptively correct trajectory drift caused by noisy or misaligned structural
signals. Together, these components inject fine-grained, trajectory-aligned
guidance without training, achieving both accurate motion control and
photorealistic content generation. Extensive experiments across diverse
benchmarks validate our method's superiority in realism, trajectory
consistency, and visual fidelity. This work introduces a novel plug-and-play
paradigm for controllable video synthesis, offering a new perspective on
leveraging generative priors for spatial intelligence.