PISCO: 희소 제어를 통한 정밀한 비디오 인스턴스 삽입
PISCO: Precise Video Instance Insertion with Sparse Control
February 9, 2026
저자: Xiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu
cs.AI
초록
AI 비디오 생성의 지형은 중대한 전환점을 맞고 있습니다: 과도한 프롬프트 엔지니어링과 '체리 피킹(선별)'에 의존하는 일반적인 생성(general generation)을 넘어, 세밀하게 제어 가능한 생성과 높은 정밀도의 후처리(post-processing)로 이동하고 있습니다. 전문 AI 지원 영화 제작에서는 정확하고 표적화된 수정을 수행하는 것이 중요합니다. 이러한 전환의 핵심은 비디오 인스턴스 삽입(video instance insertion)으로, 기존 영상에 특정 인스턴스를 삽입하면서 장면의 무결성을 유지해야 합니다. 기존의 비디오 편집과 달리, 이 작업은 정확한 시공간적 배치, 물리적으로 일관된 장면 상호작용, 원본 동역학의 충실한 보존이라는 여러 요구사항을 최소한의 사용자 노력으로 달성해야 합니다. 본 논문에서는 임의의 희소 키프레임 제어를 통한 정밀한 비디오 인스턴스 삽입을 위한 비디오 확산 모델 PISCO를 제안합니다. PISCO는 사용자가 단일 키프레임, 시작 및 종료 키프레임, 또는 임의의 타임스탬프에 희소 키프레임을 지정하면 객체의 외관, 모션, 상호작용을 자동으로 전파합니다. 사전 학습된 비디오 확산 모델에서 희소 조건화로 인한 심각한 분포 변화를 해결하기 위해, 우리는 강력한 조건화를 위한 가변 정보 가이던스(Variable-Information Guidance)와 시간적 생성 안정화를 위한 분포 보존 시간 마스킹(Distribution-Preserving Temporal Masking)을 도입하고, 현실적인 장면 적응을 위한 기하학 인식 조건화(geometry-aware conditioning)를 함께 사용합니다. 우리는 더 나아가 검증된 인스턴스 어노테이션과 쌍을 이루는 깨끗한 배경 비디오로 구성된 벤치마크 PISCO-Bench를 구축하고, 참조 기반 및 참조 없는 지각 메트릭을 사용하여 성능을 평가합니다. 실험 결과, PISCO는 희소 제어 조건에서 강력한 인페인팅 및 비디오 편집 베이스라인을 지속적으로 능가하며, 추가 제어 신호가 제공됨에 따라 명확하고 단조로운 성능 향상을 보여줍니다. 프로젝트 페이지: xiangbogaobarry.github.io/PISCO.
English
The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.