ChatPaper.aiChatPaper

OmniInsert: Maskenfreie Videoeinfügung beliebiger Referenzen mittels Diffusions-Transformer-Modellen

OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

September 22, 2025
papers.authors: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
cs.AI

papers.abstract

Jüngste Fortschritte bei der Videoeinfügung basierend auf Diffusionsmodellen sind beeindruckend. Allerdings stützen sich bestehende Methoden auf komplexe Steuersignale, haben jedoch Schwierigkeiten mit der Subjektkonsistenz, was ihre praktische Anwendbarkeit einschränkt. In diesem Artikel konzentrieren wir uns auf die Aufgabe der maskenfreien Videoeinfügung und zielen darauf ab, drei zentrale Herausforderungen zu lösen: Datenknappheit, Subjekt-Szenen-Gleichgewicht und Einfügungsharmonisierung. Um die Datenknappheit zu bewältigen, schlagen wir eine neue Datenpipeline, InsertPipe, vor, die automatisch vielfältige Kreuzpaardaten konstruiert. Aufbauend auf unserer Datenpipeline entwickeln wir OmniInsert, ein neuartiges, einheitliches Framework für die maskenfreie Videoeinfügung sowohl aus einzelnen als auch aus mehreren Subjektreferenzen. Um das Subjekt-Szenen-Gleichgewicht zu erhalten, führen wir einen einfachen, aber effektiven Mechanismus zur bedingungsspezifischen Merkmalsinjektion ein, der Multi-Quellen-Bedingungen deutlich injiziert, und schlagen eine neuartige Progressive Trainingsstrategie vor, die es dem Modell ermöglicht, die Merkmalsinjektion von Subjekten und Quellvideo auszugleichen. Gleichzeitig entwerfen wir den Subjekt-Fokussierten Verlust, um das detaillierte Erscheinungsbild der Subjekte zu verbessern. Um die Einfügungsharmonisierung weiter zu verbessern, schlagen wir eine Einfügungs-Präferenz-Optimierungsmethodik vor, um das Modell durch die Simulation menschlicher Präferenzen zu optimieren, und integrieren ein Kontextbewusstes Umformulierungsmodul während der Referenz, um das Subjekt nahtlos in die ursprünglichen Szenen zu integrieren. Um den Mangel an einem Benchmark für das Feld zu beheben, führen wir InsertBench ein, einen umfassenden Benchmark, der vielfältige Szenen mit sorgfältig ausgewählten Subjekten umfasst. Die Auswertung auf InsertBench zeigt, dass OmniInsert state-of-the-art Closed-Source-Kommerziellösungen übertrifft. Der Code wird veröffentlicht.
English
Recent advances in video insertion based on diffusion models are impressive. However, existing methods rely on complex control signals but struggle with subject consistency, limiting their practical applicability. In this paper, we focus on the task of Mask-free Video Insertion and aim to resolve three key challenges: data scarcity, subject-scene equilibrium, and insertion harmonization. To address the data scarcity, we propose a new data pipeline InsertPipe, constructing diverse cross-pair data automatically. Building upon our data pipeline, we develop OmniInsert, a novel unified framework for mask-free video insertion from both single and multiple subject references. Specifically, to maintain subject-scene equilibrium, we introduce a simple yet effective Condition-Specific Feature Injection mechanism to distinctly inject multi-source conditions and propose a novel Progressive Training strategy that enables the model to balance feature injection from subjects and source video. Meanwhile, we design the Subject-Focused Loss to improve the detailed appearance of the subjects. To further enhance insertion harmonization, we propose an Insertive Preference Optimization methodology to optimize the model by simulating human preferences, and incorporate a Context-Aware Rephraser module during reference to seamlessly integrate the subject into the original scenes. To address the lack of a benchmark for the field, we introduce InsertBench, a comprehensive benchmark comprising diverse scenes with meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert outperforms state-of-the-art closed-source commercial solutions. The code will be released.
PDF632September 23, 2025