ChatPaper.aiChatPaper

OmniInsert: Inserção de Vídeo Sem Máscara de Qualquer Referência via Modelos de Transformadores de Difusão

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

September 22, 2025
Autores: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
cs.AI

Resumo

Os recentes avanços na inserção de vídeo baseada em modelos de difusão são impressionantes. No entanto, os métodos existentes dependem de sinais de controle complexos, mas enfrentam dificuldades com a consistência do sujeito, limitando sua aplicabilidade prática. Neste artigo, focamos na tarefa de Inserção de Vídeo sem Máscara e buscamos resolver três desafios principais: escassez de dados, equilíbrio sujeito-cena e harmonização da inserção. Para abordar a escassez de dados, propomos um novo pipeline de dados, o InsertPipe, que constrói automaticamente dados diversos de pares cruzados. Com base em nosso pipeline de dados, desenvolvemos o OmniInsert, uma nova estrutura unificada para inserção de vídeo sem máscara a partir de referências de um ou vários sujeitos. Especificamente, para manter o equilíbrio sujeito-cena, introduzimos um mecanismo de Injeção de Características Específicas à Condição, simples mas eficaz, para injetar distintamente condições de múltiplas fontes, e propomos uma nova estratégia de Treinamento Progressivo que permite ao modelo equilibrar a injeção de características dos sujeitos e do vídeo de origem. Além disso, projetamos a Perda Focada no Sujeito para melhorar a aparência detalhada dos sujeitos. Para aprimorar ainda mais a harmonização da inserção, propomos uma metodologia de Otimização de Preferência Inserativa para otimizar o modelo simulando preferências humanas, e incorporamos um módulo de Reformulação Consciente do Contexto durante a referência para integrar perfeitamente o sujeito às cenas originais. Para abordar a falta de um benchmark para o campo, introduzimos o InsertBench, um benchmark abrangente composto por diversas cenas com sujeitos meticulosamente selecionados. A avaliação no InsertBench indica que o OmniInsert supera as soluções comerciais de código fechado mais avançadas. O código será liberado.
English
Recent advances in video insertion based on diffusion models are impressive. However, existing methods rely on complex control signals but struggle with subject consistency, limiting their practical applicability. In this paper, we focus on the task of Mask-free Video Insertion and aim to resolve three key challenges: data scarcity, subject-scene equilibrium, and insertion harmonization. To address the data scarcity, we propose a new data pipeline InsertPipe, constructing diverse cross-pair data automatically. Building upon our data pipeline, we develop OmniInsert, a novel unified framework for mask-free video insertion from both single and multiple subject references. Specifically, to maintain subject-scene equilibrium, we introduce a simple yet effective Condition-Specific Feature Injection mechanism to distinctly inject multi-source conditions and propose a novel Progressive Training strategy that enables the model to balance feature injection from subjects and source video. Meanwhile, we design the Subject-Focused Loss to improve the detailed appearance of the subjects. To further enhance insertion harmonization, we propose an Insertive Preference Optimization methodology to optimize the model by simulating human preferences, and incorporate a Context-Aware Rephraser module during reference to seamlessly integrate the subject into the original scenes. To address the lack of a benchmark for the field, we introduce InsertBench, a comprehensive benchmark comprising diverse scenes with meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert outperforms state-of-the-art closed-source commercial solutions. The code will be released.
PDF652September 23, 2025