ChatPaper.aiChatPaper

PISCO: Inserción Precisa de Instancias en Video con Control Disperso

PISCO: Precise Video Instance Insertion with Sparse Control

February 9, 2026
Autores: Xiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu
cs.AI

Resumen

El panorama de la generación de vídeos con IA está experimentando un cambio crucial: la transición desde la generación general, que depende de una exhaustiva ingeniería de prompts y de una "selección de lo mejor", hacia una generación de grano fino y controlable, junto con un postprocesado de alta fidelidad. En la realización cinematográfica profesional asistida por IA, es crucial realizar modificaciones precisas y dirigidas. Un pilar fundamental de esta transición es la inserción de instancias en vídeo, que requiere insertar una instancia específica en una secuencia existente manteniendo la integridad de la escena. A diferencia de la edición de vídeo tradicional, esta tarea exige varios requisitos: una colocación espacio-temporal precisa, una interacción con la escena físicamente consistente y la preservación fiel de la dinámica original, todo ello logrado con un esfuerzo de usuario mínimo. En este artículo, proponemos PISCO, un modelo de difusión de vídeo para la inserción precisa de instancias con control arbitrario mediante *keyframes* dispersos. PISCO permite a los usuarios especificar un único *keyframe*, *keyframes* de inicio y fin, o *keyframes* dispersos en marcas de tiempo arbitrarias, propagando automáticamente la apariencia, el movimiento y la interacción del objeto. Para abordar el severo cambio de distribución inducido por el condicionamiento disperso en los modelos de difusión de vídeo preentrenados, introducimos la Guía de Información Variable para un condicionamiento robusto y el Enmascaramiento Temporal de Preservación de Distribución para estabilizar la generación temporal, junto con un condicionamiento consciente de la geometría para una adaptación realista de la escena. Además, construimos PISCO-Bench, un benchmark con anotaciones de instancias verificadas y vídeos de fondo limpios emparejados, y evaluamos el rendimiento utilizando métricas perceptuales tanto basadas en referencia como libres de referencia. Los experimentos demuestran que PISCO supera consistentemente a los baselines sólidos de *inpainting* y edición de vídeo bajo control disperso, y exhibe mejoras de rendimiento claras y monótonas a medida que se proporcionan señales de control adicionales. Página del proyecto: xiangbogaobarry.github.io/PISCO.
English
The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.
PDF81February 14, 2026