DreamOmni3: Редактирование и генерация на основе набросков
DreamOmni3: Scribble-based Editing and Generation
December 27, 2025
Авторы: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI
Аннотация
Недавно появившиеся унифицированные модели генерации и редактирования достигли значительных успехов благодаря впечатляющим результатам. Эти модели в основном полагаются на текстовые промты для инструктивного редактирования и генерации, однако язык часто не позволяет точно передать предполагаемые пользователем области редактирования и тонкие визуальные детали. Для решения этой проблемы мы предлагаем две задачи: редактирование и генерацию на основе рисования от руки, что обеспечивает более гибкое творчество в графическом интерфейсе пользователя (GUI) с объединением текстовых описаний, изображений и свободных набросков. Мы представляем DreamOmni3, решающую две ключевые проблемы: создание данных и проектирование архитектуры. Наш конвейер синтеза данных включает две части: редактирование и генерацию на основе рисования. Для редактирования мы определяем четыре задачи: редактирование по рисованию и инструкции, редактирование по мультимодальной инструкции с рисованием, слияние изображений и редактирование дудлов. На основе набора данных DreamOmni2 мы извлекаем редактируемые области и накладываем рукописные прямоугольники, круги, дудлы или обрезанные изображения для создания обучающих данных. Для генерации на основе рисования мы определяем три задачи: генерацию по рисованию и инструкции, мультимодальную генерацию по рисованию и инструкции, а также генерацию дудлов, используя аналогичные конвейеры создания данных. В рамках архитектуры вместо бинарных масок, которые плохо справляются со сложными правками, включающими множественные рисунки, изображения и инструкции, мы предлагаем схему совместного ввода, при которой в модель подаются как исходное, так и размеченное рисунком изображение, с использованием разных цветов для различения областей и упрощения обработки. Применяя одинаковые индексные и позиционные кодировки к обоим изображениям, модель может точно локализовать размеченные области, сохраняя точность редактирования. Наконец, мы создаем комплексные бенчмарки для этих задач для стимулирования дальнейших исследований. Экспериментальные результаты демонстрируют, что DreamOmni3 достигает выдающихся показателей, а модели и код будут публично доступны.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.