ChatPaper.aiChatPaper

CosmicMan: Een Text-naar-Afbeelding Basismodel voor Mensen

CosmicMan: A Text-to-Image Foundation Model for Humans

April 1, 2024
Auteurs: Shikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu
cs.AI

Samenvatting

We presenteren CosmicMan, een tekst-naar-beeld foundation model gespecialiseerd in het genereren van hoogwaardige menselijke afbeeldingen. In tegenstelling tot huidige algemene foundation modellen die vastzitten in het dilemma van inferieure kwaliteit en tekst-beeld misaligning voor mensen, maakt CosmicMan het mogelijk om foto-realistische menselijke afbeeldingen te genereren met zorgvuldige verschijning, redelijke structuur en precieze tekst-beeld alignering met gedetailleerde dichte beschrijvingen. De kern van CosmicMan's succes zijn de nieuwe inzichten en perspectieven op data en modellen: (1) We ontdekten dat data kwaliteit en een schaalbare data productie flow essentieel zijn voor de eindresultaten van getrainde modellen. Daarom stellen we een nieuw data productie paradigma voor, Annotate Anyone, dat fungeert als een perpetuele data vliegwiel om hoogwaardige data te produceren met nauwkeurige en toch kosteneffectieve annotaties over tijd. Op basis hiervan hebben we een grootschalige dataset geconstrueerd, CosmicMan-HQ 1.0, met 6 miljoen hoogwaardige real-world menselijke afbeeldingen in een gemiddelde resolutie van 1488x1255, en voorzien van precieze tekstannotaties afgeleid van 115 miljoen attributen in diverse granulariteiten. (2) We beargumenteren dat een tekst-naar-beeld foundation model gespecialiseerd voor mensen pragmatisch moet zijn – gemakkelijk te integreren in downstream taken terwijl effectief in het produceren van hoogwaardige menselijke afbeeldingen. Daarom stellen we voor om de relatie tussen dichte tekstbeschrijvingen en beeldpixels op een ontbonden manier te modelleren, en presenteren we het Decomposed-Attention-Refocusing (Daring) trainingsframework. Het ontbindt naadloos de cross-attention features in bestaande tekst-naar-beeld diffusiemodellen, en dwingt aandacht refocusing af zonder extra modules toe te voegen. Door Daring laten we zien dat het expliciet discretiseren van continue tekstruimte in verschillende basisgroepen die overeenkomen met de menselijke lichaamsstructuur de sleutel is om het misaligning probleem moeiteloos aan te pakken.
English
We present CosmicMan, a text-to-image foundation model specialized for generating high-fidelity human images. Unlike current general-purpose foundation models that are stuck in the dilemma of inferior quality and text-image misalignment for humans, CosmicMan enables generating photo-realistic human images with meticulous appearance, reasonable structure, and precise text-image alignment with detailed dense descriptions. At the heart of CosmicMan's success are the new reflections and perspectives on data and models: (1) We found that data quality and a scalable data production flow are essential for the final results from trained models. Hence, we propose a new data production paradigm, Annotate Anyone, which serves as a perpetual data flywheel to produce high-quality data with accurate yet cost-effective annotations over time. Based on this, we constructed a large-scale dataset, CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean resolution of 1488x1255, and attached with precise text annotations deriving from 115 Million attributes in diverse granularities. (2) We argue that a text-to-image foundation model specialized for humans must be pragmatic -- easy to integrate into down-streaming tasks while effective in producing high-quality human images. Hence, we propose to model the relationship between dense text descriptions and image pixels in a decomposed manner, and present Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly decomposes the cross-attention features in existing text-to-image diffusion model, and enforces attention refocusing without adding extra modules. Through Daring, we show that explicitly discretizing continuous text space into several basic groups that align with human body structure is the key to tackling the misalignment problem in a breeze.
PDF171February 8, 2026