WorldForge: Раскрытие возможностей генерации 3D/4D в моделях диффузии видео с помощью обучения без тренировочного руководства
WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
September 18, 2025
Авторы: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
cs.AI
Аннотация
Недавние модели диффузии видео демонстрируют значительный потенциал в задачах пространственного интеллекта благодаря своим богатым априорным знаниям о мире. Однако этот потенциал ограничивается их недостаточной управляемостью и геометрической несогласованностью, что создает разрыв между их сильными априорными знаниями и практическим применением в задачах 3D/4D. В результате современные подходы часто полагаются на переобучение или тонкую настройку, что может привести к ухудшению предварительно обученных знаний и требует высоких вычислительных затрат. Для решения этой проблемы мы предлагаем WorldForge, обучающийся на этапе вывода фреймворк, состоящий из трех тесно связанных модулей. Внутришаговая рекурсивная оптимизация вводит механизм рекурсивной оптимизации на этапе вывода, который многократно улучшает предсказания сети на каждом шаге шумоподавления, что позволяет точно вводить траектории. Слияние латентных пространств с управлением по оптическому потоку использует сходство оптического потока для разделения движения и внешнего вида в латентном пространстве и выборочного введения управления траекториями в каналы, связанные с движением. Двухпутевое самокорректирующее управление сравнивает управляемые и неуправляемые пути шумоподавления для адаптивной коррекции отклонений траекторий, вызванных зашумленными или несовмещенными структурными сигналами. Вместе эти компоненты вводят детализированное управление, согласованное с траекториями, без необходимости обучения, достигая как точного управления движением, так и фотореалистичного создания контента. Многочисленные эксперименты на различных бенчмарках подтверждают превосходство нашего метода в реалистичности, согласованности траекторий и визуальной точности. Эта работа представляет новую парадигму "подключи и работай" для управляемого синтеза видео, предлагая новый взгляд на использование генеративных априорных знаний для пространственного интеллекта.
English
Recent video diffusion models demonstrate strong potential in spatial
intelligence tasks due to their rich latent world priors. However, this
potential is hindered by their limited controllability and geometric
inconsistency, creating a gap between their strong priors and their practical
use in 3D/4D tasks. As a result, current approaches often rely on retraining or
fine-tuning, which risks degrading pretrained knowledge and incurs high
computational costs. To address this, we propose WorldForge, a training-free,
inference-time framework composed of three tightly coupled modules. Intra-Step
Recursive Refinement introduces a recursive refinement mechanism during
inference, which repeatedly optimizes network predictions within each denoising
step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages
optical flow similarity to decouple motion from appearance in the latent space
and selectively inject trajectory guidance into motion-related channels.
Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths
to adaptively correct trajectory drift caused by noisy or misaligned structural
signals. Together, these components inject fine-grained, trajectory-aligned
guidance without training, achieving both accurate motion control and
photorealistic content generation. Extensive experiments across diverse
benchmarks validate our method's superiority in realism, trajectory
consistency, and visual fidelity. This work introduces a novel plug-and-play
paradigm for controllable video synthesis, offering a new perspective on
leveraging generative priors for spatial intelligence.