DreamOmni2: Modifica e Generazione Multimodale basata su Istruzioni
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
Autori: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
Abstract
I recenti progressi nell'editing di immagini basato su istruzioni e nella generazione guidata da soggetti hanno attirato notevole attenzione, ma entrambi i compiti presentano ancora limitazioni nel soddisfare le esigenze pratiche degli utenti. L'editing basato su istruzioni si affida esclusivamente a istruzioni linguistiche, che spesso non riescono a catturare dettagli specifici di modifica, rendendo necessarie immagini di riferimento. Nel frattempo, la generazione guidata da soggetti è limitata alla combinazione di oggetti concreti o persone, trascurando concetti più ampi e astratti. Per affrontare queste sfide, proponiamo due nuovi compiti: l'editing e la generazione multimodale basati su istruzioni. Questi compiti supportano sia istruzioni testuali che immagini e ampliano l'ambito per includere sia concetti concreti che astratti, migliorando notevolmente le loro applicazioni pratiche. Introduciamo DreamOmni2, affrontando due sfide principali: la creazione di dati e la progettazione del framework del modello. La nostra pipeline di sintesi dei dati consiste in tre passaggi: (1) utilizzare un metodo di miscelazione delle caratteristiche per creare dati di estrazione sia per concetti astratti che concreti, (2) generare dati di training per l'editing basato su istruzioni multimodali utilizzando i modelli di editing e estrazione, e (3) applicare ulteriormente il modello di estrazione per creare dati di training per l'editing basato su istruzioni multimodali. Per il framework, per gestire input multi-immagine, proponiamo uno schema di codifica dell'indice e di spostamento della codifica della posizione, che aiuta il modello a distinguere le immagini ed evitare confusione tra i pixel. Inoltre, introduciamo un addestramento congiunto con il VLM e il nostro modello di generazione/editing per elaborare meglio istruzioni complesse. In aggiunta, abbiamo proposto benchmark completi per questi due nuovi compiti per favorirne lo sviluppo. Gli esperimenti mostrano che DreamOmni2 ha ottenuto risultati impressionanti. Modelli e codici saranno rilasciati.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.