ONE-SHOT: Síntese Composicional de Vídeo Humano-Ambiente via Injeção de Movimento Espacialmente Desacoplada e Integração de Contexto Híbrido
ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration
April 1, 2026
Autores: Fengyuan Yang, Luying Huang, Jiazhi Guan, Quanwei Yang, Dongwei Pan, Jianglin Fu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Angela Yao
cs.AI
Resumo
Os recentes avanços nos Modelos de Base para Vídeo (VFMs) revolucionaram a síntese de vídeos centrados no ser humano, mas a edição refinada e independente de sujeitos e cenários permanece um desafio crítico. Tentativas recentes de incorporar um controle ambiental mais rico através de composições geométricas 3D rígidas frequentemente encontram uma forte relação de compromisso entre controle preciso e flexibilidade generativa. Além disso, o pesado pré-processamento 3D ainda limita a escalabilidade prática. Neste artigo, propomos o ONE-SHOT, uma estrutura eficiente em parâmetros para geração de vídeo composicional humano-ambiente. Nossa principal percepção é fatorar o processo generativo em sinais desacoplados. Especificamente, introduzimos um mecanismo de injeção em espaço canônico que desacopla a dinâmica humana das pistas ambientais via *cross-attention*. Também propomos o Dynamic-Grounded-RoPE, uma nova estratégia de incorporação posicional que estabelece correspondências espaciais entre domínios espaciais distintos sem quaisquer alinhamentos 3D heurísticos. Para suportar a síntese de longo horizonte, introduzimos um mecanismo de Integração Híbrida de Contexto para manter a consistência do sujeito e do cenário através de gerações em nível de minutos. Experimentos demonstram que nosso método supera significativamente os métodos de última geração, oferecendo controle estrutural superior e diversidade criativa para a síntese de vídeo. Nosso projeto está disponível em: https://martayang.github.io/ONE-SHOT/.
English
Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.