LooseControlVideo : Contrôle vidéo directionnel par blocage spatial

Résumé

L'orchestration spatiale 3D précise dans la génération texte-vidéo reste un défi majeur, en particulier pour les scènes multi-objets où la disposition sémantique et la dynamique temporelle sont souvent entremêlées. Alors que les modèles existants conditionnés par la profondeur atteignent une bonne fidélité structurelle, ils nécessitent un guidage dense et précis par image, dont la création est laborieuse pour des événements dynamiques impliquant des objets déformables. Nous présentons LooseControlVideo, un framework qui permet un contrôle intuitif et expressif en utilisant des boîtes 3D orientées et éparses comme proxy de « blocking ». Cela permet aux utilisateurs de concevoir une disposition et une trajectoire de haut niveau tout en exploitant un modèle génératif vidéo pour générer des occlusions, des dynamiques et des interactions réalistes. Nous y parvenons en affinant un modèle de base Wan 2.2 sur un ensemble de données vidéo annoté avec DNOCS, un nouvel encodage pour la taille 3D, l'orientation et les occlusions ordonnées par profondeur. De plus, notre méthode permet un affinage localisé, comme l'ajustement d'une trajectoire de saut ou l'ajout d'une interaction, avec une perturbation minimale du contexte global de la scène. Des évaluations approfondies sur les benchmarks nuScenes, HO-3D et BEHAVE montrent que LooseControlVideo surpasse significativement les références existantes basées sur des boîtes 2D et le flux optique. Nos résultats indiquent une amélioration d'un facteur de 1,2 à 3 de l'Erreur de trajectoire ; une amélioration d'un facteur 2 de la Cohérence de mouvement rigide ; et une augmentation d'un facteur de 1,5 à 2 de la Précision d'occlusion par rapport aux modèles conditionnés par la disposition de pointe actuels, démontrant que les primitives 3D orientées fournissent un bon a priori géométrique pour la création vidéo complexe multi-agents.

English

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-accurate guidance that is labor-intensive to author for dynamic events involving deformable objects. We present LooseControlVideo, a framework that enables intuitive and expressive control by using sparse, oriented 3D boxes as a "blocking" proxy. This allows users to author high-level layout and trajectory while leveraging a video generative model to generate realistic occlusions, dynamics and interactions. We achieve this by fine-tuning a Wan 2.2 backbone on a video dataset annotated with DNOCS, a novel encoding for 3D size, orientation and depth-ordered occlusions. Furthermore, our method allows for localized refinement, such as adjusting a jump trajectory or adding an interaction, with minimal disruption to the global scene context. Extensive evaluations on the nuScenes, HO-3D, and BEHAVE benchmarks demonstrate that LooseControlVideo significantly outperforms existing 2D-box and flow-based baselines. Our findings indicate a 1.2x to 3x improvement in Trajectory Error; 2x improvement in Rigid Motion Consistency; and a 1.5x to 2x increase in Occlusion Accuracy over current state-of-the-art layout-conditioned models, demonstrating that oriented 3D primitives provide good geometric prior for complex, multi-agent video authoring.