ChatPaper.aiChatPaper

PISCO: Точная вставка видеопролетов с разреженным управлением

PISCO: Precise Video Instance Insertion with Sparse Control

February 9, 2026
Авторы: Xiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu
cs.AI

Аннотация

Ландшафт генерации видео с помощью ИИ переживает переломный момент: переход от универсальной генерации, основанной на исчерпывающем промпт-инжиниринге и «отборе лучших вариантов», к детализированному, контролируемому созданию контента и высокоточной постобработке. В профессиональном кинопроизводстве с использованием ИИ крайне важно выполнять точные, целевые модификации. Краеугольным камнем этого перехода является задача вставки видеоэкземпляра, которая требует вставки конкретного объекта в существующие кадры с сохранением целостности сцены. В отличие от традиционного видеомонтажа, эта задача предъявляет ряд требований: точное пространственно-временное размещение, физически согласованное взаимодействие со сценой и достоверное сохранение исходной динамики — всё это должно достигаться при минимальных усилиях пользователя. В данной статье мы представляем PISCO — видео-диффузионную модель для точной вставки видеоэкземпляров с произвольным управлением по разреженным ключевым кадрам. PISCO позволяет пользователю указать один ключевой кадр, начальный и конечный ключевые кадры или разреженные ключевые кадры в произвольные моменты времени, после чего модель автоматически распространяет внешний вид объекта, его движение и взаимодействие. Для устранения значительного сдвига распределения, вызванного разреженным conditioning в предобученных видео-диффузионных моделях, мы вводим Variable-Information Guidance для обеспечения устойчивого conditioning и Distribution-Preserving Temporal Masking для стабилизации временнóй генерации, а также геометрически-осознанный conditioning для реалистичной адаптации к сцене. Дополнительно мы создали PISCO-Bench — бенчмарк с верифицированными аннотациями экземпляров и парными чистыми фоновыми видео, и оценили производительность с использованием как референсных, так и безреференсных перцепционных метрик. Эксперименты показывают, что PISCO стабильно превосходит сильные базовые методы инпейнтинга и видеоредактирования при разреженном контроле и демонстрирует явные, монотонные улучшения производительности по мере предоставления дополнительных управляющих сигналов. Страница проекта: xiangbogaobarry.github.io/PISCO.
English
The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.
PDF81February 14, 2026