WorldForge: Sbloccare la Generazione Emergente 3D/4D nei Modelli di Diffusione Video tramite Guida Senza Addestramento
WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
September 18, 2025
Autori: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI
Abstract
I recenti modelli di diffusione video dimostrano un forte potenziale nei compiti di intelligenza spaziale grazie ai loro ricchi prior latenti sul mondo. Tuttavia, questo potenziale è ostacolato dalla loro limitata controllabilità e incoerenza geometrica, creando un divario tra i loro forti prior e il loro utilizzo pratico nei compiti 3D/4D. Di conseguenza, gli approcci attuali spesso si basano su riaddestramento o fine-tuning, rischiando di degradare le conoscenze pre-addestrate e comportando elevati costi computazionali. Per affrontare questo problema, proponiamo WorldForge, un framework senza addestramento, operante al momento dell'inferenza, composto da tre moduli strettamente accoppiati. Il "Intra-Step Recursive Refinement" introduce un meccanismo di raffinamento ricorsivo durante l'inferenza, che ottimizza ripetutamente le previsioni della rete all'interno di ogni fase di denoising per consentire l'iniezione precisa della traiettoria. Il "Flow-Gated Latent Fusion" sfrutta la similarità del flusso ottico per separare il movimento dall'aspetto nello spazio latente e iniettare selettivamente la guida della traiettoria nei canali relativi al movimento. Il "Dual-Path Self-Corrective Guidance" confronta i percorsi di denoising guidati e non guidati per correggere adattivamente la deriva della traiettoria causata da segnali strutturali rumorosi o disallineati. Insieme, questi componenti iniettano una guida fine e allineata alla traiettoria senza addestramento, raggiungendo sia un controllo accurato del movimento che una generazione di contenuti fotorealistici. Esperimenti estesi su diversi benchmark convalidano la superiorità del nostro metodo in termini di realismo, coerenza della traiettoria e fedeltà visiva. Questo lavoro introduce un nuovo paradigma plug-and-play per la sintesi video controllabile, offrendo una nuova prospettiva sull'utilizzo dei prior generativi per l'intelligenza spaziale.
English
Recent video diffusion models demonstrate strong potential in spatial
intelligence tasks due to their rich latent world priors. However, this
potential is hindered by their limited controllability and geometric
inconsistency, creating a gap between their strong priors and their practical
use in 3D/4D tasks. As a result, current approaches often rely on retraining or
fine-tuning, which risks degrading pretrained knowledge and incurs high
computational costs. To address this, we propose WorldForge, a training-free,
inference-time framework composed of three tightly coupled modules. Intra-Step
Recursive Refinement introduces a recursive refinement mechanism during
inference, which repeatedly optimizes network predictions within each denoising
step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages
optical flow similarity to decouple motion from appearance in the latent space
and selectively inject trajectory guidance into motion-related channels.
Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths
to adaptively correct trajectory drift caused by noisy or misaligned structural
signals. Together, these components inject fine-grained, trajectory-aligned
guidance without training, achieving both accurate motion control and
photorealistic content generation. Extensive experiments across diverse
benchmarks validate our method's superiority in realism, trajectory
consistency, and visual fidelity. This work introduces a novel plug-and-play
paradigm for controllable video synthesis, offering a new perspective on
leveraging generative priors for spatial intelligence.