LooseControlVideo: Control de video directorial mediante bloqueo espacial

Resumen

La orquestación espacial 3D precisa en la generación de texto a video sigue siendo un desafío significativo, particularmente para escenas con múltiples objetos donde la disposición semántica y la dinámica temporal a menudo están entrelazadas. Si bien los modelos existentes condicionados por profundidad logran una buena fidelidad estructural, requieren una guía densa y precisa por fotograma que requiere mucho trabajo para crear eventos dinámicos que involucran objetos deformables. Presentamos LooseControlVideo, un marco que permite un control intuitivo y expresivo mediante el uso de cajas 3D orientadas dispersas como un proxy de "bloqueo". Esto permite a los usuarios crear disposición y trayectoria de alto nivel mientras aprovechan un modelo generativo de video para generar oclusiones, dinámicas e interacciones realistas. Logramos esto mediante el ajuste fino de un modelo base Wan 2.2 en un conjunto de datos de video anotado con DNOCS, una nueva codificación para tamaño 3D, orientación y oclusiones ordenadas por profundidad. Además, nuestro método permite un refinamiento localizado, como ajustar una trayectoria de salto o agregar una interacción, con una interrupción mínima del contexto global de la escena. Evaluaciones exhaustivas en los conjuntos de referencia nuScenes, HO-3D y BEHAVE demuestran que LooseControlVideo supera significativamente a las líneas base existentes basadas en cajas 2D y flujo. Nuestros hallazgos indican una mejora de 1,2 a 3 veces en el Error de trayectoria; una mejora de 2 veces en la Consistencia de movimiento rígido; y un aumento de 1,5 a 2 veces en la Precisión de oclusión en comparación con los modelos de última generación condicionados por disposición, lo que demuestra que las primitivas 3D orientadas proporcionan un buen prior geométrico para la creación de video complejo con múltiples agentes.

English

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-accurate guidance that is labor-intensive to author for dynamic events involving deformable objects. We present LooseControlVideo, a framework that enables intuitive and expressive control by using sparse, oriented 3D boxes as a "blocking" proxy. This allows users to author high-level layout and trajectory while leveraging a video generative model to generate realistic occlusions, dynamics and interactions. We achieve this by fine-tuning a Wan 2.2 backbone on a video dataset annotated with DNOCS, a novel encoding for 3D size, orientation and depth-ordered occlusions. Furthermore, our method allows for localized refinement, such as adjusting a jump trajectory or adding an interaction, with minimal disruption to the global scene context. Extensive evaluations on the nuScenes, HO-3D, and BEHAVE benchmarks demonstrate that LooseControlVideo significantly outperforms existing 2D-box and flow-based baselines. Our findings indicate a 1.2x to 3x improvement in Trajectory Error; 2x improvement in Rigid Motion Consistency; and a 1.5x to 2x increase in Occlusion Accuracy over current state-of-the-art layout-conditioned models, demonstrating that oriented 3D primitives provide good geometric prior for complex, multi-agent video authoring.