ChatPaper.aiChatPaper

Over++: Генеративное видеомонтажное наложение для эффектов межслойного взаимодействия

Over++: Generative Video Compositing for Layer Interaction Effects

December 22, 2025
Авторы: Luchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman
cs.AI

Аннотация

В профессиональных рабочих процессах компоновки видео художники должны вручную создавать взаимодействия с окружающей средой — такие как тени, отражения, пыль и брызги — между объектами переднего плана и фоновыми слоями. Существующие генеративные модели видео с трудом сохраняют исходное видео при добавлении подобных эффектов, а современные методы видео-инпейнтинга либо требуют трудоемких масок для каждого кадра, либо дают неправдоподобные результаты. Мы представляем расширенную компоновку — новую задачу, которая синтезирует реалистичные полупрозрачные эффекты окружающей среды на основе текстовых промптов и входных видео слоев, сохраняя при этом оригинальную сцену. Для решения этой задачи мы предлагаем Over++, фреймворк для генерации видеоэффектов, который не делает предположений о позе камеры, стационарности сцены или данных о глубине. Мы создали парный набор данных эффектов, адаптированный для этой задачи, и представляем стратегию непарного аугментирования, которая сохраняет возможность текстового управления редактированием. Наш метод также поддерживает опциональное управление масками и направляющие ключевые кадры без необходимости плотной аннотации. Несмотря на обучение на ограниченных данных, Over++ создает разнообразные и реалистичные эффекты окружающей среды и превосходит существующие базовые методы как в генерации эффектов, так и в сохранении сцены.
English
In professional video compositing workflows, artists must manually create environmental interactions-such as shadows, reflections, dust, and splashes-between foreground subjects and background layers. Existing video generative models struggle to preserve the input video while adding such effects, and current video inpainting methods either require costly per-frame masks or yield implausible results. We introduce augmented compositing, a new task that synthesizes realistic, semi-transparent environmental effects conditioned on text prompts and input video layers, while preserving the original scene. To address this task, we present Over++, a video effect generation framework that makes no assumptions about camera pose, scene stationarity, or depth supervision. We construct a paired effect dataset tailored for this task and introduce an unpaired augmentation strategy that preserves text-driven editability. Our method also supports optional mask control and keyframe guidance without requiring dense annotations. Despite training on limited data, Over++ produces diverse and realistic environmental effects and outperforms existing baselines in both effect generation and scene preservation.
PDF11December 24, 2025