PISCO: Inserimento Precise di Istanze Video con Controllo Sparso

Abstract

Il panorama della generazione video basata sull'intelligenza artificiale sta attraversando una svolta cruciale: si sta evolvendo oltre la generazione generica - che si affida a un'estesa ingegneria dei prompt e a una "selezione accurata" - verso una generazione granulare e controllabile, unita a un post-processing di alta fedeltà. Nell'ambito della produzione cinematografica professionale assistita dall'IA, è fondamentale poter effettuare modifiche precise e mirate. Un pilastro di questa transizione è l'inserimento di istanze video, che richiede l'inserimento di un oggetto specifico in un filmato esistente preservando l'integrità della scena. A differenza del video editing tradizionale, questo compito richiede diversi requisiti: un posizionamento spazio-temporale preciso, un'interazione con la scena fisicamente coerente e la preservazione fedele delle dinamiche originali, il tutto ottenuto con uno sforzo minimo da parte dell'utente. In questo articolo, proponiamo PISCO, un modello di diffusione video per l'inserimento preciso di istanze con controllo arbitrario tramite keyframe sparsi. PISCO consente agli utenti di specificare un singolo keyframe, keyframe di inizio e fine, o keyframe sparsi in timestamp arbitrari, propagando automaticamente l'aspetto dell'oggetto, il suo movimento e l'interazione. Per affrontare il grave spostamento di distribuzione indotto dal condizionamento sparso nei modelli di diffusione video pre-addestrati, introduciamo la Variable-Information Guidance per un condizionamento robusto e il Distribution-Preserving Temporal Masking per stabilizzare la generazione temporale, insieme a un condizionamento geometricamente consapevole per un adattamento realistico alla scena. Costruiamo inoltre PISCO-Bench, un benchmark con annotazioni di istanze verificate e video di sfondo puliti accoppiati, e valutiamo le prestazioni utilizzando metriche percettive sia basate su riferimento che senza riferimento. Gli esperimenti dimostrano che PISCO supera costantemente i baseline strong di inpaintin e video editing sotto controllo sparso, e mostra miglioramenti prestazionali chiari e monotoni man mano che vengono forniti segnali di controllo aggiuntivi. Pagina del progetto: xiangbogaobarry.github.io/PISCO.

English

The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.

PISCO: Inserimento Precise di Istanze Video con Controllo Sparso

PISCO: Precise Video Instance Insertion with Sparse Control

Abstract

Support