CosmicMan: Um Modelo de Base Texto-para-Imagem para Humanos
CosmicMan: A Text-to-Image Foundation Model for Humans
April 1, 2024
Autores: Shikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu
cs.AI
Resumo
Apresentamos o CosmicMan, um modelo de base text-to-image especializado na geração de imagens humanas de alta fidelidade. Diferente dos modelos de base de propósito geral atuais, que enfrentam o dilema de qualidade inferior e desalinhamento texto-imagem para humanos, o CosmicMan permite a geração de imagens humanas foto-realistas com aparência meticulosa, estrutura razoável e alinhamento preciso entre texto e imagem, acompanhadas de descrições densas e detalhadas. No cerne do sucesso do CosmicMan estão novas reflexões e perspectivas sobre dados e modelos: (1) Descobrimos que a qualidade dos dados e um fluxo escalável de produção de dados são essenciais para os resultados finais dos modelos treinados. Portanto, propomos um novo paradigma de produção de dados, Annotate Anyone, que serve como um volante perpétuo de dados para produzir dados de alta qualidade com anotações precisas e custo-efetivas ao longo do tempo. Com base nisso, construímos um conjunto de dados em larga escala, o CosmicMan-HQ 1.0, com 6 milhões de imagens humanas reais de alta qualidade em uma resolução média de 1488x1255, acompanhadas de anotações textuais precisas derivadas de 115 milhões de atributos em diversas granularidades. (2) Argumentamos que um modelo de base text-to-image especializado para humanos deve ser pragmático — fácil de integrar em tarefas subsequentes, ao mesmo tempo eficaz na produção de imagens humanas de alta qualidade. Assim, propomos modelar a relação entre descrições textuais densas e pixels de imagem de maneira decomposta, e apresentamos o framework de treinamento Decomposed-Attention-Refocusing (Daring). Ele decompõe de forma contínua as características de atenção cruzada em modelos de difusão text-to-image existentes e reforça o redirecionamento de atenção sem adicionar módulos extras. Através do Daring, mostramos que a discretização explícita do espaço textual contínuo em vários grupos básicos que se alinham com a estrutura do corpo humano é a chave para resolver o problema de desalinhamento com facilidade.
English
We present CosmicMan, a text-to-image foundation model specialized for
generating high-fidelity human images. Unlike current general-purpose
foundation models that are stuck in the dilemma of inferior quality and
text-image misalignment for humans, CosmicMan enables generating
photo-realistic human images with meticulous appearance, reasonable structure,
and precise text-image alignment with detailed dense descriptions. At the heart
of CosmicMan's success are the new reflections and perspectives on data and
models: (1) We found that data quality and a scalable data production flow are
essential for the final results from trained models. Hence, we propose a new
data production paradigm, Annotate Anyone, which serves as a perpetual data
flywheel to produce high-quality data with accurate yet cost-effective
annotations over time. Based on this, we constructed a large-scale dataset,
CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean
resolution of 1488x1255, and attached with precise text annotations deriving
from 115 Million attributes in diverse granularities. (2) We argue that a
text-to-image foundation model specialized for humans must be pragmatic -- easy
to integrate into down-streaming tasks while effective in producing
high-quality human images. Hence, we propose to model the relationship between
dense text descriptions and image pixels in a decomposed manner, and present
Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly
decomposes the cross-attention features in existing text-to-image diffusion
model, and enforces attention refocusing without adding extra modules. Through
Daring, we show that explicitly discretizing continuous text space into several
basic groups that align with human body structure is the key to tackling the
misalignment problem in a breeze.