ChatPaper.aiChatPaper

OmniInsert: Inserimento Senza Maschera di Qualsiasi Riferimento nei Video tramite Modelli di Trasformatori a Diffusione

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

September 22, 2025
Autori: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
cs.AI

Abstract

I recenti progressi nell'inserimento video basati su modelli di diffusione sono impressionanti. Tuttavia, i metodi esistenti si affidano a segnali di controllo complessi ma faticano a mantenere la coerenza del soggetto, limitando la loro applicabilità pratica. In questo articolo, ci concentriamo sul compito di Inserimento Video Senza Maschera e miriamo a risolvere tre sfide chiave: scarsità di dati, equilibrio soggetto-scena e armonizzazione dell'inserimento. Per affrontare la scarsità di dati, proponiamo una nuova pipeline di dati chiamata InsertPipe, che costruisce automaticamente dati cross-pair diversificati. Basandoci sulla nostra pipeline di dati, sviluppiamo OmniInsert, un nuovo framework unificato per l'inserimento video senza maschera a partire da riferimenti di uno o più soggetti. Nello specifico, per mantenere l'equilibrio soggetto-scena, introduciamo un meccanismo di Iniezione di Caratteristiche Specifiche per Condizione, semplice ma efficace, per iniettare distintamente condizioni multi-sorgente, e proponiamo una nuova strategia di Addestramento Progressivo che consente al modello di bilanciare l'iniezione di caratteristiche dai soggetti e dal video sorgente. Nel frattempo, progettiamo una Perdita Focalizzata sul Soggetto per migliorare l'aspetto dettagliato dei soggetti. Per ulteriormente migliorare l'armonizzazione dell'inserimento, proponiamo una metodologia di Ottimizzazione delle Preferenze Inseritive per ottimizzare il modello simulando le preferenze umane, e incorporiamo un modulo di Riformulazione Consapevole del Contesto durante il riferimento per integrare in modo fluido il soggetto nelle scene originali. Per affrontare la mancanza di un benchmark nel campo, introduciamo InsertBench, un benchmark completo che comprende scene diversificate con soggetti selezionati meticolosamente. La valutazione su InsertBench indica che OmniInsert supera le soluzioni commerciali closed-source all'avanguardia. Il codice verrà rilasciato.
English
Recent advances in video insertion based on diffusion models are impressive. However, existing methods rely on complex control signals but struggle with subject consistency, limiting their practical applicability. In this paper, we focus on the task of Mask-free Video Insertion and aim to resolve three key challenges: data scarcity, subject-scene equilibrium, and insertion harmonization. To address the data scarcity, we propose a new data pipeline InsertPipe, constructing diverse cross-pair data automatically. Building upon our data pipeline, we develop OmniInsert, a novel unified framework for mask-free video insertion from both single and multiple subject references. Specifically, to maintain subject-scene equilibrium, we introduce a simple yet effective Condition-Specific Feature Injection mechanism to distinctly inject multi-source conditions and propose a novel Progressive Training strategy that enables the model to balance feature injection from subjects and source video. Meanwhile, we design the Subject-Focused Loss to improve the detailed appearance of the subjects. To further enhance insertion harmonization, we propose an Insertive Preference Optimization methodology to optimize the model by simulating human preferences, and incorporate a Context-Aware Rephraser module during reference to seamlessly integrate the subject into the original scenes. To address the lack of a benchmark for the field, we introduce InsertBench, a comprehensive benchmark comprising diverse scenes with meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert outperforms state-of-the-art closed-source commercial solutions. The code will be released.
PDF652September 23, 2025