EENMALIGE OPNAME: Compositionele Mens-Omgeving Video-synthese via Ruimtelijk Ontkoppelde Bewegingsinjectie en Hybride Contextintegratie
ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration
April 1, 2026
Auteurs: Fengyuan Yang, Luying Huang, Jiazhi Guan, Quanwei Yang, Dongwei Pan, Jianglin Fu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Angela Yao
cs.AI
Samenvatting
Recente vooruitgang in Video Foundation Models (VFMs) heeft een revolutie teweeggebracht in de synthese van mensgerichte video's, maar fijnmazige en onafhankelijke bewerking van onderwerpen en scènes blijft een kritieke uitdaging. Recente pogingen om rijkere omgevingscontrole te incorporeren via rigide 3D-geometrische composities stuiten vaak op een scherpe wisselwerking tussen precieze controle en generatieve flexibiliteit. Bovendien beperkt de zware 3D-voorbewerking nog steeds de praktische schaalbaarheid. In dit artikel stellen we ONE-SHOT voor, een parameter-efficiënt raamwerk voor compositionele mens-omgeving videogeneratie. Onze belangrijkste inzicht is het ontbinden van het generatieve proces in losgekoppelde signalen. Specifiek introduceren we een injectiemechanisme in de canonieke ruimte dat menselijke dynamiek ontkoppelt van omgevingssignalen via cross-attention. We stellen ook Dynamic-Grounded-RoPE voor, een nieuwe positionele embeddingstrategie die ruimtelijke correspondenties tot stand brengt tussen uiteenlopende ruimtedomeinen zonder enige heuristische 3D-uitlijning. Om synthese op lange termijn te ondersteunen, introduceren we een Hybride Contextintegratiemechanisme om de consistentie van onderwerp en scène te handhaven over generaties op minuutniveau. Experimenten tonen aan dat onze methode state-of-the-art methoden significant overtreft, met superieure structurele controle en creatieve diversiteit voor videosynthese. Ons project is beschikbaar op: https://martayang.github.io/ONE-SHOT/.
English
Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.