OmniInsert: Масконезависимая вставка в видео любых объектов с использованием диффузионных трансформерных моделей
OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models
September 22, 2025
Авторы: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
cs.AI
Аннотация
Недавние достижения в области вставки видео на основе диффузионных моделей впечатляют. Однако существующие методы полагаются на сложные управляющие сигналы, но сталкиваются с проблемами согласованности объектов, что ограничивает их практическую применимость. В данной статье мы сосредотачиваемся на задаче вставки видео без использования масок и стремимся решить три ключевые проблемы: недостаток данных, баланс между объектом и сценой, а также гармонизацию вставки. Для решения проблемы недостатка данных мы предлагаем новый конвейер данных InsertPipe, который автоматически создает разнообразные перекрестные пары данных. На основе нашего конвейера данных мы разрабатываем OmniInsert, новую унифицированную структуру для вставки видео без масок с использованием как одного, так и нескольких эталонных объектов. В частности, для поддержания баланса между объектом и сценой мы вводим простой, но эффективный механизм Condition-Specific Feature Injection, который четко внедряет условия из нескольких источников, и предлагаем новую стратегию Progressive Training, позволяющую модели сбалансировать внедрение признаков из объектов и исходного видео. Одновременно мы разрабатываем Subject-Focused Loss для улучшения детализированного внешнего вида объектов. Для дальнейшего повышения гармонизации вставки мы предлагаем методологию Insertive Preference Optimization, которая оптимизирует модель, имитируя человеческие предпочтения, и включаем модуль Context-Aware Rephraser на этапе ссылки для бесшовной интеграции объекта в исходные сцены. Для решения проблемы отсутствия эталонного набора данных в данной области мы представляем InsertBench, всеобъемлющий эталонный набор, включающий разнообразные сцены с тщательно отобранными объектами. Оценка на InsertBench показывает, что OmniInsert превосходит современные коммерческие решения с закрытым исходным кодом. Код будет опубликован.
English
Recent advances in video insertion based on diffusion models are impressive.
However, existing methods rely on complex control signals but struggle with
subject consistency, limiting their practical applicability. In this paper, we
focus on the task of Mask-free Video Insertion and aim to resolve three key
challenges: data scarcity, subject-scene equilibrium, and insertion
harmonization. To address the data scarcity, we propose a new data pipeline
InsertPipe, constructing diverse cross-pair data automatically. Building upon
our data pipeline, we develop OmniInsert, a novel unified framework for
mask-free video insertion from both single and multiple subject references.
Specifically, to maintain subject-scene equilibrium, we introduce a simple yet
effective Condition-Specific Feature Injection mechanism to distinctly inject
multi-source conditions and propose a novel Progressive Training strategy that
enables the model to balance feature injection from subjects and source video.
Meanwhile, we design the Subject-Focused Loss to improve the detailed
appearance of the subjects. To further enhance insertion harmonization, we
propose an Insertive Preference Optimization methodology to optimize the model
by simulating human preferences, and incorporate a Context-Aware Rephraser
module during reference to seamlessly integrate the subject into the original
scenes. To address the lack of a benchmark for the field, we introduce
InsertBench, a comprehensive benchmark comprising diverse scenes with
meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert
outperforms state-of-the-art closed-source commercial solutions. The code will
be released.