OmniInsert: Inserimento Senza Maschera di Qualsiasi Riferimento nei Video tramite Modelli di Trasformatori a Diffusione
OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models
September 22, 2025
Autori: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
cs.AI
Abstract
I recenti progressi nell'inserimento video basati su modelli di diffusione sono impressionanti. Tuttavia, i metodi esistenti si affidano a segnali di controllo complessi ma faticano a mantenere la coerenza del soggetto, limitando la loro applicabilità pratica. In questo articolo, ci concentriamo sul compito di Inserimento Video Senza Maschera e miriamo a risolvere tre sfide chiave: scarsità di dati, equilibrio soggetto-scena e armonizzazione dell'inserimento. Per affrontare la scarsità di dati, proponiamo una nuova pipeline di dati chiamata InsertPipe, che costruisce automaticamente dati cross-pair diversificati. Basandoci sulla nostra pipeline di dati, sviluppiamo OmniInsert, un nuovo framework unificato per l'inserimento video senza maschera a partire da riferimenti di uno o più soggetti. Nello specifico, per mantenere l'equilibrio soggetto-scena, introduciamo un meccanismo di Iniezione di Caratteristiche Specifiche per Condizione, semplice ma efficace, per iniettare distintamente condizioni multi-sorgente, e proponiamo una nuova strategia di Addestramento Progressivo che consente al modello di bilanciare l'iniezione di caratteristiche dai soggetti e dal video sorgente. Nel frattempo, progettiamo una Perdita Focalizzata sul Soggetto per migliorare l'aspetto dettagliato dei soggetti. Per ulteriormente migliorare l'armonizzazione dell'inserimento, proponiamo una metodologia di Ottimizzazione delle Preferenze Inseritive per ottimizzare il modello simulando le preferenze umane, e incorporiamo un modulo di Riformulazione Consapevole del Contesto durante il riferimento per integrare in modo fluido il soggetto nelle scene originali. Per affrontare la mancanza di un benchmark nel campo, introduciamo InsertBench, un benchmark completo che comprende scene diversificate con soggetti selezionati meticolosamente. La valutazione su InsertBench indica che OmniInsert supera le soluzioni commerciali closed-source all'avanguardia. Il codice verrà rilasciato.
English
Recent advances in video insertion based on diffusion models are impressive.
However, existing methods rely on complex control signals but struggle with
subject consistency, limiting their practical applicability. In this paper, we
focus on the task of Mask-free Video Insertion and aim to resolve three key
challenges: data scarcity, subject-scene equilibrium, and insertion
harmonization. To address the data scarcity, we propose a new data pipeline
InsertPipe, constructing diverse cross-pair data automatically. Building upon
our data pipeline, we develop OmniInsert, a novel unified framework for
mask-free video insertion from both single and multiple subject references.
Specifically, to maintain subject-scene equilibrium, we introduce a simple yet
effective Condition-Specific Feature Injection mechanism to distinctly inject
multi-source conditions and propose a novel Progressive Training strategy that
enables the model to balance feature injection from subjects and source video.
Meanwhile, we design the Subject-Focused Loss to improve the detailed
appearance of the subjects. To further enhance insertion harmonization, we
propose an Insertive Preference Optimization methodology to optimize the model
by simulating human preferences, and incorporate a Context-Aware Rephraser
module during reference to seamlessly integrate the subject into the original
scenes. To address the lack of a benchmark for the field, we introduce
InsertBench, a comprehensive benchmark comprising diverse scenes with
meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert
outperforms state-of-the-art closed-source commercial solutions. The code will
be released.