ChatPaper.aiChatPaper

WorldForge: Het Ontgrendelen van Emergente 3D/4D Generatie in Videodiffusiemodellen via Trainingsvrije Begeleiding

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

September 18, 2025
Auteurs: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI

Samenvatting

Recente videodiffusiemodellen tonen een sterk potentieel in ruimtelijke intelligentietaken dankzij hun rijke latente wereldpriors. Dit potentieel wordt echter belemmerd door hun beperkte bestuurbaarheid en geometrische inconsistentie, wat een kloof creëert tussen hun sterke priors en hun praktische toepassing in 3D/4D-taken. Als gevolg vertrouwen huidige benaderingen vaak op hertraining of fine-tuning, wat het risico loopt om vooraf getrainde kennis te verslechteren en hoge rekenkosten met zich meebrengt. Om dit aan te pakken, stellen we WorldForge voor, een trainingsvrij, inferentie-tijd framework dat bestaat uit drie nauw verbonden modules. Intra-Step Recursive Refinement introduceert een recursief verfijningsmechanisme tijdens inferentie, dat de netwerkvoorspellingen binnen elke denoisestap herhaaldelijk optimaliseert om precieze trajectinjectie mogelijk te maken. Flow-Gated Latent Fusion maakt gebruik van optische stroomsimilariteit om beweging van uiterlijk in de latente ruimte te ontkoppelen en selectief trajectbegeleiding in bewegingsgerelateerde kanalen te injecteren. Dual-Path Self-Corrective Guidance vergelijkt geleide en niet-geleide denoisepaden om adaptief trajectdrift veroorzaakt door ruisachtige of verkeerd uitgelijnde structurele signalen te corrigeren. Samen injecteren deze componenten fijnmazige, trajectuitgelijnde begeleiding zonder training, waardoor zowel nauwkeurige bewegingcontrole als fotorealistische contentgeneratie wordt bereikt. Uitgebreide experimenten over diverse benchmarks valideren de superioriteit van onze methode in realisme, trajectconsistentie en visuele getrouwheid. Dit werk introduceert een nieuw plug-and-play paradigma voor bestuurbare videosynthese, en biedt een nieuw perspectief op het benutten van generatieve priors voor ruimtelijke intelligentie.
English
Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.
PDF303September 19, 2025