LooseControlVideo: Режиссерский контроль видео с использованием пространственного блокирования

Аннотация

Точная трехмерная пространственная организация в генерации видео по текстовому описанию остается значительной проблемой, особенно для сцен с несколькими объектами, где семантическая компоновка и временная динамика часто взаимосвязаны. В то время как существующие модели, работающие с условиями глубины, достигают хорошей структурной точности, они требуют плотного, покадрового руководства, которое трудоемко в создании для динамических событий с деформируемыми объектами. Мы представляем LooseControlVideo — фреймворк, обеспечивающий интуитивное и выразительное управление путем использования разреженных ориентированных 3D-боксов в качестве «блокирующего» прокси. Это позволяет пользователям задавать высокоуровневую компоновку и траекторию, в то время как генеративная модель видео создает реалистичные окклюзии, динамику и взаимодействия. Мы достигаем этого путем тонкой настройки бэкбона Wan 2.2 на наборе видеоданных, аннотированных с помощью DNOCS — нового кодирования для трехмерного размера, ориентации и окклюзий с глубинной упорядоченностью. Кроме того, наш метод позволяет выполнять локализованное уточнение, например, корректировку траектории прыжка или добавление взаимодействия, с минимальным нарушением общего контекста сцены. Обширные оценки на бенчмарках nuScenes, HO-3D и BEHAVE демонстрируют, что LooseControlVideo значительно превосходит существующие базовые модели, использующие 2D-боксы и потоковые методы. Наши результаты показывают улучшение в 1.2–3 раза по ошибке траектории; улучшение в 2 раза по согласованности жесткого движения; и увеличение точности окклюзий в 1.5–2 раза по сравнению с современными моделями, работающими с условиями компоновки, что демонстрирует, что ориентированные 3D-примитивы обеспечивают хорошую геометрическую предварительную информацию для сложного многодетального видеосоздания.

English

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-accurate guidance that is labor-intensive to author for dynamic events involving deformable objects. We present LooseControlVideo, a framework that enables intuitive and expressive control by using sparse, oriented 3D boxes as a "blocking" proxy. This allows users to author high-level layout and trajectory while leveraging a video generative model to generate realistic occlusions, dynamics and interactions. We achieve this by fine-tuning a Wan 2.2 backbone on a video dataset annotated with DNOCS, a novel encoding for 3D size, orientation and depth-ordered occlusions. Furthermore, our method allows for localized refinement, such as adjusting a jump trajectory or adding an interaction, with minimal disruption to the global scene context. Extensive evaluations on the nuScenes, HO-3D, and BEHAVE benchmarks demonstrate that LooseControlVideo significantly outperforms existing 2D-box and flow-based baselines. Our findings indicate a 1.2x to 3x improvement in Trajectory Error; 2x improvement in Rigid Motion Consistency; and a 1.5x to 2x increase in Occlusion Accuracy over current state-of-the-art layout-conditioned models, demonstrating that oriented 3D primitives provide good geometric prior for complex, multi-agent video authoring.