LooseControlVideo: Regie-videobesturing met ruimtelijke blokkering

Samenvatting

Nauwkeurige 3D-ruimtelijke orkestratie in tekst-naar-video generatie blijft een aanzienlijke uitdaging, met name voor scènes met meerdere objecten waar semantische lay-out en temporele dynamiek vaak met elkaar verweven zijn. Hoewel bestaande diepte-geconditioneerde modellen een goede structurele getrouwheid bereiken, vereisen zij een dichte, frame-nauwkeurige begeleiding die arbeidsintensief is om te creëren voor dynamische gebeurtenissen met vervormbare objecten. Wij presenteren LooseControlVideo, een raamwerk dat intuïtieve en expressieve controle mogelijk maakt door gebruik te maken van spaarse, georiënteerde 3D-kaders als een 'blokkerende' proxy. Dit stelt gebruikers in staat om een lay-out en traject op hoog niveau te bepalen, terwijl een videogeneratief model wordt gebruikt om realistische occlusies, dynamiek en interacties te genereren. Wij bereiken dit door een Wan 2.2-backbone te finetunen op een videodataset geannoteerd met DNOCS, een nieuwe codering voor 3D-grootte, oriëntatie en diepte-geordende occlusies. Bovendien maakt onze methode gelokaliseerde verfijning mogelijk, zoals het aanpassen van een sprongtraject of het toevoegen van een interactie, met minimale verstoring van de globale scènecontext. Uitgebreide evaluaties op de benchmarks nuScenes, HO-3D en BEHAVE tonen aan dat LooseControlVideo aanzienlijk beter presteert dan bestaande basislijnen op basis van 2D-kaders en optische flow. Onze bevindingen wijzen op een verbetering van 1,2 tot 3 keer in Trajectfout; een verbetering van 2 keer in Consistentie van starre beweging; en een toename van 1,5 tot 2 keer in Occlusienauwkeurigheid ten opzichte van de huidige state-of-the-art lay-out-geconditioneerde modellen, wat aantoont dat georiënteerde 3D-primitieven een goede geometrische voorkennis bieden voor complexe video-autoring met meerdere agenten.

English

Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-accurate guidance that is labor-intensive to author for dynamic events involving deformable objects. We present LooseControlVideo, a framework that enables intuitive and expressive control by using sparse, oriented 3D boxes as a "blocking" proxy. This allows users to author high-level layout and trajectory while leveraging a video generative model to generate realistic occlusions, dynamics and interactions. We achieve this by fine-tuning a Wan 2.2 backbone on a video dataset annotated with DNOCS, a novel encoding for 3D size, orientation and depth-ordered occlusions. Furthermore, our method allows for localized refinement, such as adjusting a jump trajectory or adding an interaction, with minimal disruption to the global scene context. Extensive evaluations on the nuScenes, HO-3D, and BEHAVE benchmarks demonstrate that LooseControlVideo significantly outperforms existing 2D-box and flow-based baselines. Our findings indicate a 1.2x to 3x improvement in Trajectory Error; 2x improvement in Rigid Motion Consistency; and a 1.5x to 2x increase in Occlusion Accuracy over current state-of-the-art layout-conditioned models, demonstrating that oriented 3D primitives provide good geometric prior for complex, multi-agent video authoring.