DreamOmni3: 스크리블 기반 편집 및 생성
DreamOmni3: Scribble-based Editing and Generation
December 27, 2025
저자: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
cs.AI
초록
최근 통합 생성 및 편집 모델은 인상적인 성능으로 주목할만한 성과를 거두었습니다. 이러한 모델은 주로 텍스트 프롬프트에 의존하여 지시 기반 편집 및 생성을 수행하지만, 언어만으로는 사용자가 의도한 편집 위치와 세밀한 시각적 디테일을 충분히 표현하기 어렵습니다. 이를 위해 본 연구에서는 사용자의 텍스트, 이미지, 자유로운 스케치를 그래픽 사용자 인터페이스(GUI) 상에서 결합하여 보다 유연한 창작을 가능하게 하는 스크리블 기반 편집 및 생성이라는 두 가지 과제를 제안합니다. 우리는 DreamOmni3를 소개하며, 데이터 생성과 프레임워크 설계라는 두 가지 난제를 해결합니다. 우리의 데이터 합성 파이프라인은 스크리블 기반 편집과 생성 두 부분으로 구성됩니다. 스크리블 기반 편집을 위해 우리는 스크리블 및 지시 기반 편집, 스크리블 및 다중모달 지시 기반 편집, 이미지 융합, 낙서 편집이라는 네 가지 작업을 정의합니다. DreamOmni2 데이터셋을 기반으로 편집 가능한 영역을 추출하고 손으로 그린 사각형, 원, 낙서 또는 크롭된 이미지를 중첩하여 학습 데이터를 구축합니다. 스크리블 기반 생성을 위해서는 유사한 데이터 생성 파이프라인을 따라 스크리블 및 지시 기반 생성, 스크리블 및 다중모달 지시 기반 생성, 낙서 생성이라는 세 가지 작업을 정의합니다. 프레임워크 측면에서는 여러 스크리블, 이미지, 지시사항이 복합적으로 관여하는 편집에 취약한 이진 마스크 대신, 원본 이미지와 스크리블이 가해진 소스 이미지를 모두 모델에 입력하는 공동 입력 방식을 제안합니다. 서로 다른 색상을 사용하여 영역을 구분하고 처리를 단순화하며, 두 이미지에 동일한 인덱스 및 위치 인코딩을 적용함으로써 모델이 정확한 편집을 유지하면서 스크리블 영역을 정밀하게 지역화할 수 있습니다. 마지막으로, 해당 과제들에 대한 포괄적인 벤치마크를 구축하여 향후 연구를 촉진합니다. 실험 결과는 DreamOmni3가 우수한 성능을 달성함을 보여주며, 모델과 코드는 공개될 예정입니다.
English
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.