ChatPaper.aiChatPaper

Over++: Composizione Video Generativa per Effetti di Interazione tra Livelli

Over++: Generative Video Compositing for Layer Interaction Effects

December 22, 2025
Autori: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI

Abstract

Nei flussi di lavoro professionali di composizione video, gli artisti devono creare manualmente le interazioni ambientali - come ombre, riflessi, polvere e schizzi - tra i soggetti in primo piano e gli strati di sfondo. I modelli generativi video esistenti faticano a preservare il video di input mentre aggiungono tali effetti, e gli attuali metodi di video inpainting richiedono costose maschere per fotogramma o producono risultati inverosimili. Introduciamo l'augmented compositing, un nuovo compito che sintetizza effetti ambientali realistici e semitrasparenti condizionati da prompt testuali e strati video di input, preservando la scena originale. Per affrontare questo compito, presentiamo Over++, un framework per la generazione di effetti video che non fa assunzioni sulla posa della telecamera, la stazionarietà della scena o la supervisione della profondità. Costruiamo un dataset di effetti appaiati specifico per questo compito e introduciamo una strategia di augmentazione non appaiata che preserva l'editabilità guidata dal testo. Il nostro metodo supporta anche il controllo opzionale tramite maschere e la guida tramite keyframe senza richiedere annotazioni dense. Nonostante l'addestramento su dati limitati, Over++ produce effetti ambientali diversificati e realistici e supera le baseline esistenti sia nella generazione degli effetti che nella preservazione della scena.
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.
PDF11December 24, 2025