CosmicMan: 인간을 위한 텍스트-이미지 기반 모델
CosmicMan: A Text-to-Image Foundation Model for Humans
April 1, 2024
저자: Shikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu
cs.AI
초록
우리는 고화질 인간 이미지 생성을 위해 특화된 텍스트-이미지 기반 모델인 CosmicMan을 소개한다. 현재의 범용 기반 모델들이 인간 이미지 생성에서 낮은 품질과 텍스트-이미지 정렬 문제에 갇혀 있는 반면, CosmicMan은 세밀한 외모, 합리적인 구조, 그리고 상세한 밀집 설명과 함께 정확한 텍스트-이미지 정렬을 통해 사실적인 인간 이미지를 생성할 수 있다. CosmicMan의 성공 핵심은 데이터와 모델에 대한 새로운 통찰과 관점에 있다: (1) 데이터 품질과 확장 가능한 데이터 생산 프로세스가 훈련된 모델의 최종 결과에 필수적임을 발견했다. 따라서, 우리는 시간이 지남에 따라 정확하면서도 비용 효율적인 주석을 통해 고품질 데이터를 지속적으로 생산하는 데이터 생산 패러다임인 'Annotate Anyone'을 제안한다. 이를 기반으로, 우리는 평균 해상도 1488x1255의 600만 장의 고품질 실제 인간 이미지와 다양한 세분화 수준에서 도출된 1억 1500만 개의 속성으로 구성된 정확한 텍스트 주석이 첨부된 대규모 데이터셋인 CosmicMan-HQ 1.0을 구축했다. (2) 인간을 위한 텍스트-이미지 기반 모델은 실용적이어야 한다고 주장한다. 즉, 하위 작업에 쉽게 통합되면서도 고품질 인간 이미지를 효과적으로 생성할 수 있어야 한다. 따라서, 우리는 밀집 텍스트 설명과 이미지 픽셀 간의 관계를 분해된 방식으로 모델링하고, Decomposed-Attention-Refocusing(Daring) 훈련 프레임워크를 제안한다. 이는 기존 텍스트-이미지 확산 모델의 교차 주석 특징을 원활하게 분해하고, 추가 모듈 없이 주석 재집중을 강제한다. Daring을 통해, 우리는 연속적인 텍스트 공간을 인간 신체 구조와 일치하는 여러 기본 그룹으로 명시적으로 분리하는 것이 정렬 문제를 쉽게 해결하는 열쇠임을 보여준다.
English
We present CosmicMan, a text-to-image foundation model specialized for
generating high-fidelity human images. Unlike current general-purpose
foundation models that are stuck in the dilemma of inferior quality and
text-image misalignment for humans, CosmicMan enables generating
photo-realistic human images with meticulous appearance, reasonable structure,
and precise text-image alignment with detailed dense descriptions. At the heart
of CosmicMan's success are the new reflections and perspectives on data and
models: (1) We found that data quality and a scalable data production flow are
essential for the final results from trained models. Hence, we propose a new
data production paradigm, Annotate Anyone, which serves as a perpetual data
flywheel to produce high-quality data with accurate yet cost-effective
annotations over time. Based on this, we constructed a large-scale dataset,
CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean
resolution of 1488x1255, and attached with precise text annotations deriving
from 115 Million attributes in diverse granularities. (2) We argue that a
text-to-image foundation model specialized for humans must be pragmatic -- easy
to integrate into down-streaming tasks while effective in producing
high-quality human images. Hence, we propose to model the relationship between
dense text descriptions and image pixels in a decomposed manner, and present
Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly
decomposes the cross-attention features in existing text-to-image diffusion
model, and enforces attention refocusing without adding extra modules. Through
Daring, we show that explicitly discretizing continuous text space into several
basic groups that align with human body structure is the key to tackling the
misalignment problem in a breeze.Summary
AI-Generated Summary