ChatPaper.aiChatPaper

WorldForge: Desbloqueando Geração Emergente 3D/4D em Modelos de Difusão de Vídeo por meio de Orientação sem Treinamento

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

September 18, 2025
Autores: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI

Resumo

Modelos recentes de difusão de vídeo demonstram um forte potencial em tarefas de inteligência espacial devido aos seus ricos priors latentes do mundo. No entanto, esse potencial é limitado pela sua controlabilidade restrita e inconsistência geométrica, criando uma lacuna entre seus priors robustos e seu uso prático em tarefas 3D/4D. Como resultado, as abordagens atuais frequentemente dependem de retreinamento ou ajuste fino, o que pode degradar o conhecimento pré-treinado e incorrer em altos custos computacionais. Para resolver isso, propomos o WorldForge, uma estrutura sem treinamento, operando em tempo de inferência, composta por três módulos fortemente acoplados. O Refinamento Recursivo Intra-Etapa introduz um mecanismo de refinamento recursivo durante a inferência, que otimiza repetidamente as previsões da rede em cada etapa de remoção de ruído para permitir a injeção precisa de trajetórias. A Fusão Latente Controlada por Fluxo aproveita a similaridade do fluxo óptico para separar movimento de aparência no espaço latente e injetar seletivamente orientação de trajetória em canais relacionados ao movimento. A Orientação Autocorretiva de Caminho Duplo compara caminhos de remoção de ruído guiados e não guiados para corrigir adaptativamente o desvio de trajetória causado por sinais estruturais ruidosos ou desalinhados. Juntos, esses componentes injetam orientação de granularidade fina e alinhada à trajetória sem treinamento, alcançando tanto controle preciso de movimento quanto geração de conteúdo fotorrealista. Experimentos extensos em diversos benchmarks validam a superioridade do nosso método em realismo, consistência de trajetória e fidelidade visual. Este trabalho introduz um novo paradigma plug-and-play para síntese de vídeo controlável, oferecendo uma nova perspectiva sobre a utilização de priors generativos para inteligência espacial.
English
Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.
PDF303September 19, 2025