ChatPaper.aiChatPaper

Over++: Composición Generativa de Vídeo para Efectos de Interacción entre Capas

Over++: Generative Video Compositing for Layer Interaction Effects

December 22, 2025
Autores: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI

Resumen

En los flujos de trabajo profesionales de composición de vídeo, los artistas deben crear manualmente interacciones ambientales —como sombras, reflejos, polvo y salpicaduras— entre los sujetos en primer plano y las capas de fondo. Los modelos generativos de vídeo existentes tienen dificultades para preservar el vídeo de entrada al añadir dichos efectos, y los métodos actuales de inpaintinng de vídeo requieren costosas máscaras por fotograma o producen resultados poco plausibles. Introducimos la composición aumentada, una nueva tarea que sintetiza efectos ambientales semitransparentes y realistas condicionados por prompts de texto y capas de vídeo de entrada, preservando la escena original. Para abordar esta tarea, presentamos Over++, un marco de generación de efectos de vídeo que no realiza suposiciones sobre la pose de la cámara, la estacionariedad de la escena o la supervisión de profundidad. Construimos un conjunto de datos de efectos emparejados específico para esta tarea e introducimos una estrategia de aumento no emparejado que preserva la capacidad de edición guiada por texto. Nuestro método también admite control opcional por máscara y guiado por fotogramas clave sin requerir anotaciones densas. A pesar de entrenarse con datos limitados, Over++ produce efectos ambientales diversos y realistas, y supera a las líneas base existentes tanto en generación de efectos como en preservación de la escena.
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.
PDF11December 24, 2025