WorldForge: Sbloccare la Generazione Emergente 3D/4D nei Modelli di Diffusione Video tramite Guida Senza Addestramento

Abstract

I recenti modelli di diffusione video dimostrano un forte potenziale nei compiti di intelligenza spaziale grazie ai loro ricchi prior latenti sul mondo. Tuttavia, questo potenziale è ostacolato dalla loro limitata controllabilità e incoerenza geometrica, creando un divario tra i loro forti prior e il loro utilizzo pratico nei compiti 3D/4D. Di conseguenza, gli approcci attuali spesso si basano su riaddestramento o fine-tuning, rischiando di degradare le conoscenze pre-addestrate e comportando elevati costi computazionali. Per affrontare questo problema, proponiamo WorldForge, un framework senza addestramento, operante al momento dell'inferenza, composto da tre moduli strettamente accoppiati. Il "Intra-Step Recursive Refinement" introduce un meccanismo di raffinamento ricorsivo durante l'inferenza, che ottimizza ripetutamente le previsioni della rete all'interno di ogni fase di denoising per consentire l'iniezione precisa della traiettoria. Il "Flow-Gated Latent Fusion" sfrutta la similarità del flusso ottico per separare il movimento dall'aspetto nello spazio latente e iniettare selettivamente la guida della traiettoria nei canali relativi al movimento. Il "Dual-Path Self-Corrective Guidance" confronta i percorsi di denoising guidati e non guidati per correggere adattivamente la deriva della traiettoria causata da segnali strutturali rumorosi o disallineati. Insieme, questi componenti iniettano una guida fine e allineata alla traiettoria senza addestramento, raggiungendo sia un controllo accurato del movimento che una generazione di contenuti fotorealistici. Esperimenti estesi su diversi benchmark convalidano la superiorità del nostro metodo in termini di realismo, coerenza della traiettoria e fedeltà visiva. Questo lavoro introduce un nuovo paradigma plug-and-play per la sintesi video controllabile, offrendo una nuova prospettiva sull'utilizzo dei prior generativi per l'intelligenza spaziale.

English

Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.

WorldForge: Sbloccare la Generazione Emergente 3D/4D nei Modelli di Diffusione Video tramite Guida Senza Addestramento

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

Abstract

Support