PISCO : Insertion précise d'instances vidéo avec contrôle parcimonieux
PISCO: Precise Video Instance Insertion with Sparse Control
February 9, 2026
papers.authors: Xiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu
cs.AI
papers.abstract
Le paysage de la génération vidéo par IA connaît une transformation décisive : on s'éloigne de la génération générale - qui repose sur un *prompt-engineering* exhaustif et une sélection fastidieuse - pour se diriger vers une génération à granularité fine, contrôlable, et un post-traitement haute fidélité. Dans le cadre de la réalisation cinématographique assistée par IA à usage professionnel, il est crucial d'effectuer des modifications précises et ciblées. Une pierre angulaire de cette transition est l'insertion d'instances vidéo, qui consiste à insérer une instance spécifique dans une séquence existante tout en préservant l'intégrité de la scène. Contrairement au montage vidéo traditionnel, cette tâche exige plusieurs impératifs : un positionnement spatio-temporel précis, une interaction physiquement cohérente avec la scène, et la préservation fidèle de la dynamique originale - le tout avec un effort utilisateur minimal. Dans cet article, nous proposons PISCO, un modèle de diffusion vidéo pour l'insertion précise d'instances avec un contrôle arbitraire par images clés éparses. PISCO permet aux utilisateurs de spécifier une seule image clé, des images clés de début et de fin, ou des images clés éparses à des timestamps arbitraires, et propage automatiquement l'apparence, le mouvement et l'interaction de l'objet. Pour résoudre le décalage de distribution important induit par un conditionnement épars dans les modèles de diffusion vidéo pré-entraînés, nous introduisons un Guidage à Information Variable pour un conditionnement robuste et un Masquage Temporel Préservant la Distribution pour stabiliser la génération temporelle, associés à un conditionnement géométriquement conscient pour une adaptation réaliste à la scène. Nous construisons également PISCO-Bench, un benchmark comportant des annotations d'instances vérifiées et des vidéos de fond propres appariées, et nous évaluons les performances à l'aide de métriques perceptuelles avec et sans référence. Les expériences démontrent que PISCO surpasse constamment les méthodes de référence en matière d'inpainting et d'édition vidéo sous contrôle épars, et présente des améliorations de performances nettes et monotones à mesure que des signaux de contrôle supplémentaires sont fournis. Page du projet : xiangbogaobarry.github.io/PISCO.
English
The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.