DreamOmni2: Multimodale instruktionsbasierte Bearbeitung und Generierung
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
papers.authors: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
papers.abstract
Jüngste Fortschritte in der instruktionsbasierten Bildbearbeitung und der subjektgetriebenen Generierung haben erhebliche Aufmerksamkeit erregt, doch beide Aufgaben stehen weiterhin vor Einschränkungen bei der Erfüllung praktischer Benutzerbedürfnisse. Die instruktionsbasierte Bearbeitung stützt sich ausschließlich auf Sprachanweisungen, die oft spezifische Bearbeitungsdetails nicht erfassen können, wodurch Referenzbilder notwendig werden. Gleichzeitig ist die subjektgetriebene Generierung auf die Kombination konkreter Objekte oder Personen beschränkt und übersieht dabei breitere, abstrakte Konzepte. Um diese Herausforderungen zu bewältigen, schlagen wir zwei neuartige Aufgaben vor: die multimodale instruktionsbasierte Bearbeitung und Generierung. Diese Aufgaben unterstützen sowohl Text- als auch Bildanweisungen und erweitern den Anwendungsbereich, um sowohl konkrete als auch abstrakte Konzepte einzubeziehen, wodurch ihre praktischen Anwendungen erheblich verbessert werden. Wir stellen DreamOmni2 vor, das sich zwei primären Herausforderungen stellt: der Datenerstellung und dem Modellrahmenentwurf. Unsere Daten-Synthese-Pipeline besteht aus drei Schritten: (1) Verwendung einer Feature-Mixing-Methode zur Erstellung von Extraktionsdaten für sowohl abstrakte als auch konkrete Konzepte, (2) Generierung von Trainingsdaten für die multimodale instruktionsbasierte Bearbeitung mithilfe der Bearbeitungs- und Extraktionsmodelle und (3) weitere Anwendung des Extraktionsmodells zur Erstellung von Trainingsdaten für die multimodale instruktionsbasierte Bearbeitung. Für den Rahmen schlagen wir zur Handhabung von Multi-Bild-Eingaben ein Index-Encoding- und Positions-Encoding-Shift-Schema vor, das dem Modell hilft, Bilder zu unterscheiden und Pixelverwirrung zu vermeiden. Zusätzlich führen wir ein gemeinsames Training mit dem VLM und unserem Generierungs-/Bearbeitungsmodell ein, um komplexe Anweisungen besser verarbeiten zu können. Darüber hinaus haben wir umfassende Benchmarks für diese beiden neuen Aufgaben vorgeschlagen, um ihre Entwicklung voranzutreiben. Experimente zeigen, dass DreamOmni2 beeindruckende Ergebnisse erzielt hat. Modelle und Codes werden veröffentlicht.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.