WorldForge: Desbloqueando la Generación Emergente 3D/4D en Modelos de Difusión de Video mediante Guía sin Entrenamiento
WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
September 18, 2025
Autores: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI
Resumen
Los recientes modelos de difusión de video demuestran un gran potencial en tareas de inteligencia espacial debido a sus ricos conocimientos previos sobre el mundo latente. Sin embargo, este potencial se ve limitado por su escasa controlabilidad e inconsistencia geométrica, lo que crea una brecha entre sus fuertes conocimientos previos y su uso práctico en tareas 3D/4D. Como resultado, los enfoques actuales suelen depender de reentrenamientos o ajustes finos, lo que conlleva el riesgo de degradar el conocimiento preentrenado y genera altos costos computacionales. Para abordar esto, proponemos WorldForge, un marco de trabajo en tiempo de inferencia que no requiere entrenamiento y está compuesto por tres módulos estrechamente acoplados. El Refinamiento Recursivo Intra-Paso introduce un mecanismo de refinamiento recursivo durante la inferencia, que optimiza repetidamente las predicciones de la red dentro de cada paso de eliminación de ruido para permitir la inyección precisa de trayectorias. La Fusión Latente Controlada por Flujo aprovecha la similitud del flujo óptico para desacoplar el movimiento de la apariencia en el espacio latente e inyectar selectivamente la guía de trayectoria en los canales relacionados con el movimiento. La Guía Autocorrectiva de Doble Camino compara las rutas de eliminación de ruido guiadas y no guiadas para corregir de manera adaptativa la deriva de trayectoria causada por señales estructurales ruidosas o desalineadas. Juntos, estos componentes inyectan una guía detallada y alineada con la trayectoria sin necesidad de entrenamiento, logrando tanto un control preciso del movimiento como una generación de contenido fotorrealista. Experimentos exhaustivos en diversos benchmarks validan la superioridad de nuestro método en realismo, consistencia de trayectoria y fidelidad visual. Este trabajo introduce un nuevo paradigma plug-and-play para la síntesis de video controlable, ofreciendo una nueva perspectiva sobre el aprovechamiento de conocimientos previos generativos para la inteligencia espacial.
English
Recent video diffusion models demonstrate strong potential in spatial
intelligence tasks due to their rich latent world priors. However, this
potential is hindered by their limited controllability and geometric
inconsistency, creating a gap between their strong priors and their practical
use in 3D/4D tasks. As a result, current approaches often rely on retraining or
fine-tuning, which risks degrading pretrained knowledge and incurs high
computational costs. To address this, we propose WorldForge, a training-free,
inference-time framework composed of three tightly coupled modules. Intra-Step
Recursive Refinement introduces a recursive refinement mechanism during
inference, which repeatedly optimizes network predictions within each denoising
step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages
optical flow similarity to decouple motion from appearance in the latent space
and selectively inject trajectory guidance into motion-related channels.
Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths
to adaptively correct trajectory drift caused by noisy or misaligned structural
signals. Together, these components inject fine-grained, trajectory-aligned
guidance without training, achieving both accurate motion control and
photorealistic content generation. Extensive experiments across diverse
benchmarks validate our method's superiority in realism, trajectory
consistency, and visual fidelity. This work introduces a novel plug-and-play
paradigm for controllable video synthesis, offering a new perspective on
leveraging generative priors for spatial intelligence.