Over++: Generatief Videocompositing voor Laaginteractie-effecten
Over++: Generative Video Compositing for Layer Interaction Effects
December 22, 2025
Auteurs: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI
Samenvatting
In professionele videocompositie-workflows moeten artiesten handmatig omgevingsinteracties - zoals schaduwen, reflecties, stof en spetters - tussen voorgrondobjecten en achtergrondlagen creëren. Bestaande videogeneratieve modellen slagen er niet in de invoervideo te behouden terwijl ze dergelijke effecten toevoegen, en huidige video-inpaintingmethoden vereisen ofwel kostbare maskers per frame of leveren ongeloofwaardige resultaten op. Wij introduceren *augmented compositing*, een nieuwe taak die realistische, semi-transparante omgevingseffecten synthetiseert op basis van tekstprompts en invoervideolagen, waarbij de oorspronkelijke scène behouden blijft. Om deze taak aan te pakken, presenteren wij Over++, een raamwerk voor videogeneratie dat geen aannames doet over camerapositie, scènestabiliteit of dieptesupervisie. Wij construeren een gepaarde effectdataset die is toegesneden op deze taak en introduceren een ongepaarde augmentatiestrategie die tekstgestuurde bewerkbaarheid behoudt. Onze methode ondersteunt ook optionele maskercontrole en keyframe-guidance zonder dichte annotaties te vereisen. Ondanks training op beperkte data produceert Over++ diverse en realistische omgevingseffecten en presteert het beter dan bestaande baseline-methoden in zowel effectgeneratie als scènebehoud.
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.