OmniInsert : Insertion sans masque de toute référence vidéo via des modèles de transformateurs de diffusion

papers.abstract

Les récents progrès dans l'insertion vidéo basée sur les modèles de diffusion sont impressionnants. Cependant, les méthodes existantes s'appuient sur des signaux de contrôle complexes mais peinent à maintenir la cohérence des sujets, limitant ainsi leur applicabilité pratique. Dans cet article, nous nous concentrons sur la tâche d'insertion vidéo sans masque et visons à résoudre trois défis majeurs : la rareté des données, l'équilibre sujet-scène et l'harmonisation de l'insertion. Pour pallier la rareté des données, nous proposons une nouvelle pipeline de données, InsertPipe, qui construit automatiquement des données croisées diversifiées. En nous appuyant sur cette pipeline, nous développons OmniInsert, un cadre unifié novateur pour l'insertion vidéo sans masque à partir de références de sujets uniques ou multiples. Plus précisément, pour maintenir l'équilibre sujet-scène, nous introduisons un mécanisme d'injection de caractéristiques spécifiques aux conditions, simple mais efficace, pour injecter distinctement des conditions multi-sources, et proposons une stratégie d'entraînement progressive qui permet au modèle d'équilibrer l'injection de caractéristiques des sujets et de la vidéo source. Par ailleurs, nous concevons une fonction de perte centrée sur le sujet pour améliorer l'apparence détaillée des sujets. Pour renforcer davantage l'harmonisation de l'insertion, nous proposons une méthodologie d'optimisation des préférences d'insertion pour optimiser le modèle en simulant les préférences humaines, et intégrons un module de reformulation contextuelle pendant la référence pour intégrer de manière fluide le sujet dans les scènes originales. Pour remédier au manque de référence dans ce domaine, nous introduisons InsertBench, un benchmark complet comprenant des scènes variées avec des sujets soigneusement sélectionnés. L'évaluation sur InsertBench montre qu'OmniInsert surpasse les solutions commerciales propriétaires de pointe. Le code sera publié.

English

Recent advances in video insertion based on diffusion models are impressive. However, existing methods rely on complex control signals but struggle with subject consistency, limiting their practical applicability. In this paper, we focus on the task of Mask-free Video Insertion and aim to resolve three key challenges: data scarcity, subject-scene equilibrium, and insertion harmonization. To address the data scarcity, we propose a new data pipeline InsertPipe, constructing diverse cross-pair data automatically. Building upon our data pipeline, we develop OmniInsert, a novel unified framework for mask-free video insertion from both single and multiple subject references. Specifically, to maintain subject-scene equilibrium, we introduce a simple yet effective Condition-Specific Feature Injection mechanism to distinctly inject multi-source conditions and propose a novel Progressive Training strategy that enables the model to balance feature injection from subjects and source video. Meanwhile, we design the Subject-Focused Loss to improve the detailed appearance of the subjects. To further enhance insertion harmonization, we propose an Insertive Preference Optimization methodology to optimize the model by simulating human preferences, and incorporate a Context-Aware Rephraser module during reference to seamlessly integrate the subject into the original scenes. To address the lack of a benchmark for the field, we introduce InsertBench, a comprehensive benchmark comprising diverse scenes with meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert outperforms state-of-the-art closed-source commercial solutions. The code will be released.

OmniInsert : Insertion sans masque de toute référence vidéo via des modèles de transformateurs de diffusion

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

papers.abstract

Support