WorldForge: Раскрытие возможностей генерации 3D/4D в моделях диффузии видео с помощью обучения без тренировочного руководства

Аннотация

Недавние модели диффузии видео демонстрируют значительный потенциал в задачах пространственного интеллекта благодаря своим богатым априорным знаниям о мире. Однако этот потенциал ограничивается их недостаточной управляемостью и геометрической несогласованностью, что создает разрыв между их сильными априорными знаниями и практическим применением в задачах 3D/4D. В результате современные подходы часто полагаются на переобучение или тонкую настройку, что может привести к ухудшению предварительно обученных знаний и требует высоких вычислительных затрат. Для решения этой проблемы мы предлагаем WorldForge, обучающийся на этапе вывода фреймворк, состоящий из трех тесно связанных модулей. Внутришаговая рекурсивная оптимизация вводит механизм рекурсивной оптимизации на этапе вывода, который многократно улучшает предсказания сети на каждом шаге шумоподавления, что позволяет точно вводить траектории. Слияние латентных пространств с управлением по оптическому потоку использует сходство оптического потока для разделения движения и внешнего вида в латентном пространстве и выборочного введения управления траекториями в каналы, связанные с движением. Двухпутевое самокорректирующее управление сравнивает управляемые и неуправляемые пути шумоподавления для адаптивной коррекции отклонений траекторий, вызванных зашумленными или несовмещенными структурными сигналами. Вместе эти компоненты вводят детализированное управление, согласованное с траекториями, без необходимости обучения, достигая как точного управления движением, так и фотореалистичного создания контента. Многочисленные эксперименты на различных бенчмарках подтверждают превосходство нашего метода в реалистичности, согласованности траекторий и визуальной точности. Эта работа представляет новую парадигму "подключи и работай" для управляемого синтеза видео, предлагая новый взгляд на использование генеративных априорных знаний для пространственного интеллекта.

English

Recent video diffusion models demonstrate strong potential in spatial intelligence tasks due to their rich latent world priors. However, this potential is hindered by their limited controllability and geometric inconsistency, creating a gap between their strong priors and their practical use in 3D/4D tasks. As a result, current approaches often rely on retraining or fine-tuning, which risks degrading pretrained knowledge and incurs high computational costs. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. Intra-Step Recursive Refinement introduces a recursive refinement mechanism during inference, which repeatedly optimizes network predictions within each denoising step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Extensive experiments across diverse benchmarks validate our method's superiority in realism, trajectory consistency, and visual fidelity. This work introduces a novel plug-and-play paradigm for controllable video synthesis, offering a new perspective on leveraging generative priors for spatial intelligence.

WorldForge: Раскрытие возможностей генерации 3D/4D в моделях диффузии видео с помощью обучения без тренировочного руководства

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

Аннотация

Support