DreamOmni2: Многомодальное редактирование и генерация на основе инструкций
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
Авторы: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
Аннотация
Последние достижения в области редактирования изображений на основе инструкций и генерации, ориентированной на объекты, привлекли значительное внимание, однако обе задачи по-прежнему сталкиваются с ограничениями в удовлетворении практических потребностей пользователей. Редактирование на основе инструкций полагается исключительно на текстовые указания, которые часто не способны передать конкретные детали редактирования, что делает необходимым использование эталонных изображений. В то же время генерация, ориентированная на объекты, ограничивается комбинированием конкретных объектов или людей, упуская из виду более широкие, абстрактные концепции. Для решения этих проблем мы предлагаем две новые задачи: мультимодальное редактирование и генерацию на основе инструкций. Эти задачи поддерживают как текстовые, так и графические инструкции и расширяют область применения, включая как конкретные, так и абстрактные концепции, что значительно повышает их практическую применимость. Мы представляем DreamOmni2, который решает две основные проблемы: создание данных и проектирование архитектуры модели. Наш конвейер синтеза данных состоит из трех этапов: (1) использование метода смешения признаков для создания данных извлечения как для абстрактных, так и для конкретных концепций, (2) генерация обучающих данных для мультимодального редактирования на основе инструкций с использованием моделей редактирования и извлечения, и (3) дальнейшее применение модели извлечения для создания обучающих данных для мультимодального редактирования на основе инструкций. В рамках архитектуры для обработки многоканального ввода изображений мы предлагаем схему индексации и сдвига позиционного кодирования, которая помогает модели различать изображения и избегать путаницы пикселей. Кроме того, мы вводим совместное обучение с моделью VLM и нашей моделью генерации/редактирования для более эффективной обработки сложных инструкций. Дополнительно мы предложили комплексные эталонные тесты для этих двух новых задач, чтобы стимулировать их развитие. Эксперименты показывают, что DreamOmni2 достиг впечатляющих результатов. Модели и коды будут опубликованы.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.