ONE-SHOT: Sintesi Composizionale di Video Uomo-Ambiente tramite Iniezione di Movimento Spazialmente Disaccoppiata e Integrazione di Contesto Ibrido

Abstract

I recenti progressi nei Modelli di Base Video (VFMs) hanno rivoluzionato la sintesi video incentrata sull'umano, tuttavia l'editing granulare e indipendente di soggetti e scene rimane una sfida critica. I recenti tentativi di incorporare un controllo ambientale più ricco attraverso composizioni geometriche 3D rigide incontrano spesso un netto compromesso tra controllo preciso e flessibilità generativa. Inoltre, l'oneroso pre-processing 3D limita ancora la scalabilità pratica. In questo articolo, proponiamo ONE-SHOT, un framework efficiente in parametri per la generazione video composizionale umano-ambiente. La nostra intuizione chiave è di fattorizzare il processo generativo in segnali disaccoppiati. Nello specifico, introduciamo un meccanismo di iniezione nello spazio canonico che disaccoppia la dinamica umana dai segnali ambientali tramite cross-attention. Proponiamo anche Dynamic-Grounded-RoPE, una nuova strategia di embedding posizionale che stabilisce corrispondenze spaziali tra domini spaziali disparati senza alcun allineamento 3D euristico. Per supportare la sintesi a lungo orizzonte, introduciamo un meccanismo di Integrazione Ibrida del Contesto per mantenere la coerenza del soggetto e della scena attraverso generazioni a livello di minuto. Gli esperimenti dimostrano che il nostro metodo supera significamente gli stati dell'arte, offrendo un controllo strutturale superiore e una diversità creativa per la sintesi video. Il nostro progetto è disponibile su: https://martayang.github.io/ONE-SHOT/.

English

Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.

ONE-SHOT: Sintesi Composizionale di Video Uomo-Ambiente tramite Iniezione di Movimento Spazialmente Disaccoppiata e Integrazione di Contesto Ibrido

ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration

Abstract

Support