선택받은 자: 텍스트-이미지 확산 모델에서의 일관된 캐릭터 생성
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
November 16, 2023
저자: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
초록
텍스트-이미지 생성 모델의 최근 발전은 시각적 창의성에 대한 광범위한 가능성을 열어주었습니다. 그러나 이러한 모델들은 스토리 시각화, 게임 개발 자산 디자인, 광고 등 다양한 실제 응용 분야에서 중요한 요소인 일관된 캐릭터 생성에 어려움을 겪고 있습니다. 현재의 방법들은 일반적으로 대상 캐릭터의 여러 사전 존재 이미지에 의존하거나, 수작업이 많이 필요한 과정을 포함합니다. 본 연구에서는 텍스트 프롬프트만을 입력으로 사용하여 일관된 캐릭터 생성을 위한 완전 자동화된 솔루션을 제안합니다. 우리는 각 단계에서 유사한 정체성을 공유하는 일관된 이미지 집합을 식별하고, 이 집합에서 더 일관된 정체성을 추출하는 반복적 절차를 소개합니다. 정량적 분석 결과, 우리의 방법은 기준 방법들에 비해 프롬프트 정렬과 정체성 일관성 사이에서 더 나은 균형을 이루는 것으로 나타났으며, 이러한 결과는 사용자 연구를 통해 더욱 강화되었습니다. 결론적으로, 우리는 이 접근법의 여러 실용적인 응용 사례를 보여줍니다. 프로젝트 페이지는 https://omriavrahami.com/the-chosen-one에서 확인할 수 있습니다.
English
Recent advances in text-to-image generation models have unlocked vast
potential for visual creativity. However, these models struggle with generation
of consistent characters, a crucial aspect for numerous real-world applications
such as story visualization, game development asset design, advertising, and
more. Current methods typically rely on multiple pre-existing images of the
target character or involve labor-intensive manual processes. In this work, we
propose a fully automated solution for consistent character generation, with
the sole input being a text prompt. We introduce an iterative procedure that,
at each stage, identifies a coherent set of images sharing a similar identity
and extracts a more consistent identity from this set. Our quantitative
analysis demonstrates that our method strikes a better balance between prompt
alignment and identity consistency compared to the baseline methods, and these
findings are reinforced by a user study. To conclude, we showcase several
practical applications of our approach. Project page is available at
https://omriavrahami.com/the-chosen-oneSummary
AI-Generated Summary