DreamOmni2: Multimodale bewerkings- en generatie op basis van instructies
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
Auteurs: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
Samenvatting
Recente vooruitgang in instructiegebaseerde beeldbewerking en onderwerpgedreven generatie heeft aanzienlijke aandacht gekregen, maar beide taken kampen nog steeds met beperkingen in het voldoen aan praktische gebruikersbehoeften. Instructiegebaseerde bewerking vertrouwt uitsluitend op taal-instructies, die vaak specifieke bewerkingsdetails niet goed vastleggen, waardoor referentiebeelden noodzakelijk zijn. Ondertussen is onderwerpgedreven generatie beperkt tot het combineren van concrete objecten of personen, waarbij bredere, abstracte concepten over het hoofd worden gezien. Om deze uitdagingen aan te pakken, stellen we twee nieuwe taken voor: multimodale instructiegebaseerde bewerking en generatie. Deze taken ondersteunen zowel tekst- als beeldinstructies en breiden het bereik uit om zowel concrete als abstracte concepten te omvatten, wat hun praktische toepassingen aanzienlijk verbetert. We introduceren DreamOmni2, dat twee primaire uitdagingen aanpakt: datacreatie en modelkaderontwerp. Onze datasynthesepipeline bestaat uit drie stappen: (1) het gebruik van een functiemengmethode om extractiedata te creëren voor zowel abstracte als concrete concepten, (2) het genereren van trainingsdata voor multimodale instructiegebaseerde bewerking met behulp van de bewerkings- en extractiemodellen, en (3) het verder toepassen van het extractiemodel om trainingsdata te creëren voor multimodale instructiegebaseerde bewerking. Voor het kader, om multi-image input te verwerken, stellen we een indexcodering en positiecoderingverschuivingsschema voor, wat het model helpt beelden te onderscheiden en pixelverwarring te voorkomen. Daarnaast introduceren we gezamenlijke training met de VLM en ons generatie-/bewerkingsmodel om complexe instructies beter te verwerken. Bovendien hebben we uitgebreide benchmarks voorgesteld voor deze twee nieuwe taken om hun ontwikkeling te stimuleren. Experimenten tonen aan dat DreamOmni2 indrukwekkende resultaten heeft behaald. Modellen en code zullen worden vrijgegeven.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.