DreamOmni2 : Édition et génération multimodales basées sur des instructions
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
papers.authors: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
papers.abstract
Les récents progrès dans l'édition d'images basée sur des instructions et la génération pilotée par des sujets ont suscité un intérêt considérable, mais ces deux tâches rencontrent encore des limites pour répondre aux besoins pratiques des utilisateurs. L'édition basée sur des instructions repose uniquement sur des instructions textuelles, qui échouent souvent à capturer des détails spécifiques d'édition, rendant nécessaire l'utilisation d'images de référence. Par ailleurs, la génération pilotée par des sujets se limite à combiner des objets ou des personnes concrets, négligeant des concepts plus larges et abstraits. Pour relever ces défis, nous proposons deux nouvelles tâches : l'édition et la génération multimodales basées sur des instructions. Ces tâches prennent en charge à la fois des instructions textuelles et visuelles et étendent leur portée pour inclure des concepts à la fois concrets et abstraits, améliorant ainsi considérablement leurs applications pratiques. Nous présentons DreamOmni2, qui aborde deux défis principaux : la création de données et la conception du cadre du modèle. Notre pipeline de synthèse de données se compose de trois étapes : (1) l'utilisation d'une méthode de mélange de caractéristiques pour créer des données d'extraction pour des concepts abstraits et concrets, (2) la génération de données d'entraînement pour l'édition basée sur des instructions multimodales à l'aide de modèles d'édition et d'extraction, et (3) l'application supplémentaire du modèle d'extraction pour créer des données d'entraînement pour l'édition basée sur des instructions multimodales. Pour le cadre, afin de gérer une entrée multi-images, nous proposons un schéma d'encodage d'index et de décalage d'encodage de position, qui aide le modèle à distinguer les images et à éviter la confusion des pixels. De plus, nous introduisons un entraînement conjoint avec le VLM et notre modèle de génération/édition pour mieux traiter des instructions complexes. Par ailleurs, nous avons proposé des benchmarks complets pour ces deux nouvelles tâches afin de stimuler leur développement. Les expériences montrent que DreamOmni2 a obtenu des résultats impressionnants. Les modèles et les codes seront rendus publics.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.