Over++: レイヤー相互作用効果のための生成的ビデオ合成技術
Over++: Generative Video Compositing for Layer Interaction Effects
December 22, 2025
著者: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI
要旨
プロフェッショナルな映像合成ワークフローでは、アーティストは前景の被写体と背景レイヤーの間の環境的相互作用(影、反射、埃、飛沫など)を手動で作成する必要がある。既存の映像生成モデルは、このような効果を追加しながら入力映像を維持することが難しく、現在の映像インペインティング手法は、高コストなフレーム単位のマスクを必要とするか、非現実的な結果をもたらす。本論文では、元のシーンを保持しつつ、テキストプロンプトと入力映像レイヤーに条件付けられた現実的な半透明の環境効果を合成する新しいタスクである拡張合成(augmented compositing)を提案する。このタスクに対処するため、カメラポーズ、シーンの静止性、深度情報の教師信号を仮定しない映像効果生成フレームワークOver++を提示する。本タスクに特化したペア効果データセットを構築し、テキスト駆動の編集性を保持する非ペアデータ拡張戦略を導入する。本手法は、密な注釈を必要とせず、オプションのマスク制御とキーフレームガイダンスもサポートする。限られたデータで学習しているにもかかわらず、Over++は多様で現実的な環境効果を生成し、効果生成とシーン維持の両方において既存のベースライン手法を凌駕する。
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.