OmniBooth: 다중 모달 지시로 이미지 합성을 위한 잠재 제어 학습
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
October 7, 2024
저자: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI
초록
우리는 OmniBooth를 제시합니다. 이는 공간 제어를 가능하게 하는 이미지 생성 프레임워크로, 인스턴스 수준의 다중 모달 사용자 정의를 허용합니다. 모든 인스턴스에 대해 다중 모달 지시는 텍스트 프롬프트나 이미지 참조를 통해 설명될 수 있습니다. 사용자가 정의한 마스크 세트와 관련된 텍스트 또는 이미지 안내가 주어지면, 우리의 목표는 여러 객체가 지정된 좌표에 배치되고 그 속성이 해당 안내와 정확하게 일치하는 이미지를 생성하는 것입니다. 이 접근 방식은 텍스트에서 이미지로의 생성 범위를 크게 확장시키며, 제어 가능성 측면에서 더 다양하고 실용적인 차원으로 높입니다. 본 논문에서 우리의 핵심 기여는 제안된 잠재 제어 신호에 있습니다. 이는 공간, 텍스트 및 이미지 조건을 매끄럽게 통합하는 통합 표현을 제공하는 고차원 공간 기능입니다. 텍스트 조건은 ControlNet을 확장하여 인스턴스 수준의 오픈 어휘 생성을 제공합니다. 이미지 조건은 개인화된 신원을 가진 세밀한 제어를 더 활성화합니다. 실제로 우리의 방법은 사용자가 필요에 따라 텍스트 또는 이미지에서 다중 모달 조건을 선택할 수 있도록 하여 제어 가능한 생성에서 사용자에게 더 많은 유연성을 부여합니다. 더 나아가, 철저한 실험을 통해 우리의 이미지 합성의 충실도와 다양한 작업 및 데이터셋 간의 정렬에서 향상된 성능을 입증합니다. 프로젝트 페이지: https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial
control with instance-level multi-modal customization. For all instances, the
multimodal instruction can be described through text prompts or image
references. Given a set of user-defined masks and associated text or image
guidance, our objective is to generate an image, where multiple objects are
positioned at specified coordinates and their attributes are precisely aligned
with the corresponding guidance. This approach significantly expands the scope
of text-to-image generation, and elevates it to a more versatile and practical
dimension in controllability. In this paper, our core contribution lies in the
proposed latent control signals, a high-dimensional spatial feature that
provides a unified representation to integrate the spatial, textual, and image
conditions seamlessly. The text condition extends ControlNet to provide
instance-level open-vocabulary generation. The image condition further enables
fine-grained control with personalized identity. In practice, our method
empowers users with more flexibility in controllable generation, as users can
choose multi-modal conditions from text or images as needed. Furthermore,
thorough experiments demonstrate our enhanced performance in image synthesis
fidelity and alignment across different tasks and datasets. Project page:
https://len-li.github.io/omnibooth-web/Summary
AI-Generated Summary