DreamOmni2: 멀티모달 명령 기반 편집 및 생성
DreamOmni2: Multimodal Instruction-based Editing and Generation
October 8, 2025
저자: Bin Xia, Bohao Peng, Yuechen Zhang, Junjia Huang, Jiyang Liu, Jingyao Li, Haoru Tan, Sitong Wu, Chengyao Wang, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia
cs.AI
초록
최근 지시 기반 이미지 편집 및 주체 중심 생성 분야의 발전이 상당한 주목을 받고 있지만, 두 작업 모두 실제 사용자 요구를 충족하는 데 있어 여전히 한계를 보이고 있습니다. 지시 기반 편집은 언어 지시에만 의존하기 때문에 특정 편집 세부 사항을 포착하는 데 종종 실패하여 참조 이미지가 필요합니다. 한편, 주체 중심 생성은 구체적인 물체나 사람을 결합하는 데 제한되어 있어 더 넓고 추상적인 개념을 간과합니다. 이러한 문제를 해결하기 위해, 우리는 다중모달 지시 기반 편집 및 생성이라는 두 가지 새로운 작업을 제안합니다. 이 작업들은 텍스트와 이미지 지시를 모두 지원하며 구체적 및 추상적 개념을 모두 포함하도록 범위를 확장하여 실용적 응용성을 크게 향상시킵니다. 우리는 DreamOmni2를 소개하며, 데이터 생성과 모델 프레임워크 설계라는 두 가지 주요 과제를 해결합니다. 우리의 데이터 합성 파이프라인은 세 단계로 구성됩니다: (1) 추상적 및 구체적 개념을 위한 추출 데이터를 생성하기 위해 특징 혼합 방법을 사용, (2) 편집 및 추출 모델을 사용하여 다중모달 지시 기반 편집 훈련 데이터를 생성, (3) 추출 모델을 추가로 적용하여 다중모달 지시 기반 편집을 위한 훈련 데이터를 생성. 프레임워크 측면에서, 다중 이미지 입력을 처리하기 위해 인덱스 인코딩 및 위치 인코딩 시프트 방식을 제안하여 모델이 이미지를 구별하고 픽셀 혼란을 피할 수 있도록 합니다. 또한, 복잡한 지시를 더 잘 처리하기 위해 VLM과 우리의 생성/편집 모델을 결합한 공동 훈련 방식을 도입했습니다. 또한, 이 두 새로운 작업의 발전을 촉진하기 위해 포괄적인 벤치마크를 제안했습니다. 실험 결과, DreamOmni2는 인상적인 성과를 달성했습니다. 모델과 코드는 공개될 예정입니다.
English
Recent advancements in instruction-based image editing and subject-driven
generation have garnered significant attention, yet both tasks still face
limitations in meeting practical user needs. Instruction-based editing relies
solely on language instructions, which often fail to capture specific editing
details, making reference images necessary. Meanwhile, subject-driven
generation is limited to combining concrete objects or people, overlooking
broader, abstract concepts. To address these challenges, we propose two novel
tasks: multimodal instruction-based editing and generation. These tasks support
both text and image instructions and extend the scope to include both concrete
and abstract concepts, greatly enhancing their practical applications. We
introduce DreamOmni2, tackling two primary challenges: data creation and model
framework design. Our data synthesis pipeline consists of three steps: (1)
using a feature mixing method to create extraction data for both abstract and
concrete concepts, (2) generating multimodal instruction-based editing training
data using the editing and extraction models, and (3) further applying the
extraction model to create training data for multimodal instruction-based
editing. For the framework, to handle multi-image input, we propose an index
encoding and position encoding shift scheme, which helps the model distinguish
images and avoid pixel confusion. Additionally, we introduce joint training
with the VLM and our generation/editing model to better process complex
instructions. In addition, we have proposed comprehensive benchmarks for these
two new tasks to drive their development. Experiments show that DreamOmni2 has
achieved impressive results. Models and codes will be released.