ChatPaper.aiChatPaper

OmniInsert: Inserción de videos sin máscaras de cualquier referencia mediante modelos de transformadores de difusión

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

September 22, 2025
Autores: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
cs.AI

Resumen

Los recientes avances en la inserción de videos basados en modelos de difusión son impresionantes. Sin embargo, los métodos existentes dependen de señales de control complejas pero tienen dificultades con la consistencia del sujeto, lo que limita su aplicabilidad práctica. En este artículo, nos enfocamos en la tarea de Inserción de Videos sin Máscara y buscamos resolver tres desafíos clave: escasez de datos, equilibrio sujeto-escena y armonización de la inserción. Para abordar la escasez de datos, proponemos una nueva canalización de datos llamada InsertPipe, que construye automáticamente datos de pares cruzados diversos. Basándonos en nuestra canalización de datos, desarrollamos OmniInsert, un marco unificado novedoso para la inserción de videos sin máscara a partir de referencias de uno o varios sujetos. Específicamente, para mantener el equilibrio sujeto-escena, introducimos un mecanismo de Inyección de Características Específicas de Condición, simple pero efectivo, para inyectar distintivamente condiciones de múltiples fuentes, y proponemos una estrategia de Entrenamiento Progresivo que permite al modelo equilibrar la inyección de características de los sujetos y el video fuente. Además, diseñamos la Pérdida Enfocada en el Sujeto para mejorar la apariencia detallada de los sujetos. Para mejorar aún más la armonización de la inserción, proponemos una metodología de Optimización de Preferencias de Inserción para optimizar el modelo simulando preferencias humanas, e incorporamos un módulo de Reformulador Consciente del Contexto durante la referencia para integrar perfectamente el sujeto en las escenas originales. Para abordar la falta de un punto de referencia en el campo, presentamos InsertBench, un punto de referencia integral que comprende diversas escenas con sujetos meticulosamente seleccionados. La evaluación en InsertBench indica que OmniInsert supera a las soluciones comerciales de última generación de código cerrado. El código será liberado.
English
Recent advances in video insertion based on diffusion models are impressive. However, existing methods rely on complex control signals but struggle with subject consistency, limiting their practical applicability. In this paper, we focus on the task of Mask-free Video Insertion and aim to resolve three key challenges: data scarcity, subject-scene equilibrium, and insertion harmonization. To address the data scarcity, we propose a new data pipeline InsertPipe, constructing diverse cross-pair data automatically. Building upon our data pipeline, we develop OmniInsert, a novel unified framework for mask-free video insertion from both single and multiple subject references. Specifically, to maintain subject-scene equilibrium, we introduce a simple yet effective Condition-Specific Feature Injection mechanism to distinctly inject multi-source conditions and propose a novel Progressive Training strategy that enables the model to balance feature injection from subjects and source video. Meanwhile, we design the Subject-Focused Loss to improve the detailed appearance of the subjects. To further enhance insertion harmonization, we propose an Insertive Preference Optimization methodology to optimize the model by simulating human preferences, and incorporate a Context-Aware Rephraser module during reference to seamlessly integrate the subject into the original scenes. To address the lack of a benchmark for the field, we introduce InsertBench, a comprehensive benchmark comprising diverse scenes with meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert outperforms state-of-the-art closed-source commercial solutions. The code will be released.
PDF632September 23, 2025