ChatPaper.aiChatPaper

Over++ : Composition vidéo générative pour les effets d'interaction entre calques

Over++: Generative Video Compositing for Layer Interaction Effects

December 22, 2025
papers.authors: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI

papers.abstract

Dans les workflows professionnels de composition vidéo, les artistes doivent créer manuellement des interactions environnementales - telles que des ombres, des réflexions, de la poussière et des éclaboussures - entre les sujets au premier plan et les couches d'arrière-plan. Les modèles génératifs vidéo existants peinent à préserver la vidéo d'entrée tout en ajoutant de tels effets, et les méthodes actuelles d'inpainting vidéo nécessitent soit des masques coûteux image par image, soit produisent des résultats peu plausibles. Nous introduisons le compositing augmenté, une nouvelle tâche qui synthétise des effets environnementaux semi-transparents et réalistes conditionnés par des prompts textuels et des couches vidéo d'entrée, tout en préservant la scène originale. Pour résoudre cette tâche, nous présentons Over++, un cadre de génération d'effets vidéo qui ne fait aucune hypothèse sur la pose de la caméra, la stationnarité de la scène ou la supervision de la profondeur. Nous construisons un jeu de données d'effets appariés spécifiquement conçu pour cette tâche et introduisons une stratégie d'augmentation non appariée qui préserve la capacité d'édition pilotée par le texte. Notre méthode prend également en charge le contrôle optionnel par masque et le guidage par images clés sans nécessiter d'annotations denses. Malgré un entraînement sur des données limitées, Over++ produit des effets environnementaux diversifiés et réalistes et surpasse les méthodes de référence existantes à la fois en génération d'effets et en préservation de la scène.
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.
PDF11December 24, 2025