Over++: Composição Generativa de Vídeo para Efeitos de Interação entre Camadas

Resumo

Nos fluxos profissionais de composição de vídeo, os artistas precisam criar manualmente interações ambientais - como sombras, reflexos, poeira e respingos - entre os elementos em primeiro plano e as camadas de fundo. Os modelos generativos de vídeo existentes têm dificuldade em preservar o vídeo de entrada ao adicionar tais efeitos, e os métodos atuais de inpaintng de vídeo exigem máscaras custosas por quadro ou produzem resultados implausíveis. Introduzimos a composição aumentada, uma nova tarefa que sintetiza efeitos ambientais realistas e semitransparentes condicionados por prompts textuais e camadas de vídeo de entrada, preservando a cena original. Para abordar esta tarefa, apresentamos o Over++, um framework de geração de efeitos em vídeo que não faz suposições sobre pose da câmera, estacionariedade da cena ou supervisão de profundidade. Construímos um conjunto de dados de efeitos pareados específico para esta tarefa e introduzimos uma estratégia de aumento não pareado que preserva a editabilidade orientada por texto. Nosso método também suporta controle opcional por máscara e orientação por keyframes sem exigir anotações densas. Apesar de treinado com dados limitados, o Over++ produz efeitos ambientais diversos e realistas e supera as linhas de base existentes tanto na geração de efeitos quanto na preservação da cena.

English

In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.