LooseControlVideo: Direktoriale Videosteuerung mittels räumlicher Blockierung

Zusammenfassung

Die präzise 3D-räumliche Orchestrierung bei der Text-zu-Video-Generierung bleibt eine erhebliche Herausforderung, insbesondere für Szenen mit mehreren Objekten, in denen semantisches Layout und zeitliche Dynamik oft miteinander verwoben sind. Während bestehende tiefenbasierte Modelle eine gute strukturelle Genauigkeit erzielen, erfordern sie eine dichte, bildgenaue Führung, deren Erstellung für dynamische Ereignisse mit verformbaren Objekten arbeitsintensiv ist. Wir stellen LooseControlVideo vor, ein Framework, das intuitive und ausdrucksstarke Steuerung ermöglicht, indem es spärliche, orientierte 3D-Boxen als „Blocking“-Proxy verwendet. Dies erlaubt es Benutzern, ein High-Level-Layout und Trajektorien zu erstellen, während ein videogeneratives Modell genutzt wird, um realistische Verdeckungen, Dynamiken und Interaktionen zu generieren. Wir erreichen dies durch Feintuning eines Wan-2.2-Backbones auf einem Videodatensatz, der mit DNOCS annotiert ist – einer neuartigen Kodierung für 3D-Größe, Orientierung und tiefengeordnete Verdeckungen. Darüber hinaus ermöglicht unsere Methode lokale Verfeinerungen, wie das Anpassen einer Sprungtrajektorie oder das Hinzufügen einer Interaktion, mit minimaler Störung des globalen Szenenkontexts. Umfangreiche Evaluierungen auf den nuScenes-, HO-3D- und BEHAVE-Benchmarks zeigen, dass LooseControlVideo bestehende auf 2D-Boxen und Fluss basierende Baselines deutlich übertrifft. Unsere Ergebnisse weisen eine 1,2- bis 3-fache Verbesserung des Trajektorienfehlers, eine 2-fache Verbesserung der Konsistenz starrer Bewegungen und eine 1,5- bis 2-fache Steigerung der Verdeckungsgenauigkeit im Vergleich zu aktuellen hochmodernen layoutbasierten Modellen auf, was belegt, dass orientierte 3D-Primitive eine gute geometrische Priorität für die komplexe Videoerstellung mit mehreren Akteuren bieten.

English

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-accurate guidance that is labor-intensive to author for dynamic events involving deformable objects. We present LooseControlVideo, a framework that enables intuitive and expressive control by using sparse, oriented 3D boxes as a "blocking" proxy. This allows users to author high-level layout and trajectory while leveraging a video generative model to generate realistic occlusions, dynamics and interactions. We achieve this by fine-tuning a Wan 2.2 backbone on a video dataset annotated with DNOCS, a novel encoding for 3D size, orientation and depth-ordered occlusions. Furthermore, our method allows for localized refinement, such as adjusting a jump trajectory or adding an interaction, with minimal disruption to the global scene context. Extensive evaluations on the nuScenes, HO-3D, and BEHAVE benchmarks demonstrate that LooseControlVideo significantly outperforms existing 2D-box and flow-based baselines. Our findings indicate a 1.2x to 3x improvement in Trajectory Error; 2x improvement in Rigid Motion Consistency; and a 1.5x to 2x increase in Occlusion Accuracy over current state-of-the-art layout-conditioned models, demonstrating that oriented 3D primitives provide good geometric prior for complex, multi-agent video authoring.