ChatPaper.aiChatPaper

WorldForge: Desbloqueando la Generación Emergente 3D/4D en Modelos de Difusión de Video mediante Guía sin Entrenamiento

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

September 18, 2025
Autores: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI

Resumen

Los recientes modelos de difusión de video demuestran un gran potencial en tareas de inteligencia espacial debido a sus ricos conocimientos previos sobre el mundo latente. Sin embargo, este potencial se ve limitado por su escasa controlabilidad e inconsistencia geométrica, lo que crea una brecha entre sus fuertes conocimientos previos y su uso práctico en tareas 3D/4D. Como resultado, los enfoques actuales suelen depender de reentrenamientos o ajustes finos, lo que conlleva el riesgo de degradar el conocimiento preentrenado y genera altos costos computacionales. Para abordar esto, proponemos WorldForge, un marco de trabajo en tiempo de inferencia que no requiere entrenamiento y está compuesto por tres módulos estrechamente acoplados. El Refinamiento Recursivo Intra-Paso introduce un mecanismo de refinamiento recursivo durante la inferencia, que optimiza repetidamente las predicciones de la red dentro de cada paso de eliminación de ruido para permitir la inyección precisa de trayectorias. La Fusión Latente Controlada por Flujo aprovecha la similitud del flujo óptico para desacoplar el movimiento de la apariencia en el espacio latente e inyectar selectivamente la guía de trayectoria en los canales relacionados con el movimiento. La Guía Autocorrectiva de Doble Camino compara las rutas de eliminación de ruido guiadas y no guiadas para corregir de manera adaptativa la deriva de trayectoria causada por señales estructurales ruidosas o desalineadas. Juntos, estos componentes inyectan una guía detallada y alineada con la trayectoria sin necesidad de entrenamiento, logrando tanto un control preciso del movimiento como una generación de contenido fotorrealista. Experimentos exhaustivos en diversos benchmarks validan la superioridad de nuestro método en realismo, consistencia de trayectoria y fidelidad visual. Este trabajo introduce un nuevo paradigma plug-and-play para la síntesis de video controlable, ofreciendo una nueva perspectiva sobre el aprovechamiento de conocimientos previos generativos para la inteligencia espacial.
English
Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.
PDF303September 19, 2025