Over++: Generatives Videocompositing für Schichtinteraktionseffekte
Over++: Generative Video Compositing for Layer Interaction Effects
December 22, 2025
papers.authors: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI
papers.abstract
In professionellen Videocompositing-Workflows müssen Künstler manuell Umgebungsinteraktionen – wie Schatten, Reflexionen, Staub und Spritzer – zwischen Vordergrundobjekten und Hintergrundebenen erstellen. Bestehende videogenerative Modelle haben Schwierigkeiten, das Eingabevideo bei der Hinzufügung solcher Effekte zu bewahren, und aktuelle Video-Inpainting-Methoden erfordern entweder kostspielige Masken pro Einzelbild oder liefern unplausible Ergebnisse. Wir führen Augmented Compositing ein, eine neue Aufgabe, die realistische, halbtransparente Umgebungseffekte synthetisiert, die auf Textprompts und Eingabe-Videoebenen konditioniert sind, während die ursprüngliche Szene erhalten bleibt. Um diese Aufgabe zu lösen, präsentieren wir Over++, ein Framework zur Videoeffekterzeugung, das keine Annahmen über Kamerapose, Szenenstatik oder Tiefeninformationen trifft. Wir erstellen einen gepaarten Effektdatensatz, der für diese Aufgabe maßgeschneidert ist, und führen eine ungepaarte Augmentierungsstrategie ein, die die textgesteuerte Editierbarkeit erhält. Unsere Methode unterstützt auch optionale Maskenkontrolle und Keyframe-Steuerung ohne die Notwendigkeit dichter Annotationen. Trotz des Trainings mit begrenzten Daten erzeugt Over++ vielfältige und realistische Umgebungseffekte und übertrifft bestehende Baseline-Methoden sowohl in der Effekterzeugung als auch in der Szenenerhaltung.
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.