UN SOLO DISPARO: Síntesis Composicional de Vídeo Humano-Entorno mediante Inyección de Movimiento Desacoplada Espacialmente e Integración de Contexto Híbrido

Resumen

Los recientes avances en Modelos Fundamentales de Video (VFMs) han revolucionado la síntesis de vídeos centrados en humanos, sin embargo, la edición independiente y de grano fino de sujetos y escenas sigue siendo un desafío crítico. Los intentos recientes de incorporar un control ambiental más rico mediante composiciones geométricas 3D rígidas a menudo se enfrentan a una marcada disyuntiva entre el control preciso y la flexibilidad generativa. Además, el pesado preprocesado 3D aún limita la escalabilidad práctica. En este artículo, proponemos ONE-SHOT, un marco eficiente en parámetros para la generación de vídeo composicional humano-entorno. Nuestra idea clave es factorizar el proceso generativo en señales desacopladas. Específicamente, introducimos un mecanismo de inyección en espacio canónico que desacopla la dinámica humana de las señales ambientales mediante atención cruzada. También proponemos Dynamic-Grounded-RoPE, una novedosa estrategia de posicionamiento embebido que establece correspondencias espaciales entre dominios espaciales dispares sin ninguna alineación 3D heurística. Para soportar la síntesis de horizonte largo, introducimos un mecanismo de Integración Híbrida de Contexto para mantener la consistencia del sujeto y la escena a lo largo de generaciones a nivel de minutos. Los experimentos demuestran que nuestro método supera significativamente a los métodos state-of-the-art, ofreciendo un control estructural superior y diversidad creativa para la síntesis de video. Nuestro proyecto está disponible en: https://martayang.github.io/ONE-SHOT/.

English

Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.

UN SOLO DISPARO: Síntesis Composicional de Vídeo Humano-Entorno mediante Inyección de Movimiento Desacoplada Espacialmente e Integración de Contexto Híbrido

ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration

Resumen

Support