CosmicMan: Um Modelo de Base Texto-para-Imagem para Humanos

Resumo

Apresentamos o CosmicMan, um modelo de base text-to-image especializado na geração de imagens humanas de alta fidelidade. Diferente dos modelos de base de propósito geral atuais, que enfrentam o dilema de qualidade inferior e desalinhamento texto-imagem para humanos, o CosmicMan permite a geração de imagens humanas foto-realistas com aparência meticulosa, estrutura razoável e alinhamento preciso entre texto e imagem, acompanhadas de descrições densas e detalhadas. No cerne do sucesso do CosmicMan estão novas reflexões e perspectivas sobre dados e modelos: (1) Descobrimos que a qualidade dos dados e um fluxo escalável de produção de dados são essenciais para os resultados finais dos modelos treinados. Portanto, propomos um novo paradigma de produção de dados, Annotate Anyone, que serve como um volante perpétuo de dados para produzir dados de alta qualidade com anotações precisas e custo-efetivas ao longo do tempo. Com base nisso, construímos um conjunto de dados em larga escala, o CosmicMan-HQ 1.0, com 6 milhões de imagens humanas reais de alta qualidade em uma resolução média de 1488x1255, acompanhadas de anotações textuais precisas derivadas de 115 milhões de atributos em diversas granularidades. (2) Argumentamos que um modelo de base text-to-image especializado para humanos deve ser pragmático — fácil de integrar em tarefas subsequentes, ao mesmo tempo eficaz na produção de imagens humanas de alta qualidade. Assim, propomos modelar a relação entre descrições textuais densas e pixels de imagem de maneira decomposta, e apresentamos o framework de treinamento Decomposed-Attention-Refocusing (Daring). Ele decompõe de forma contínua as características de atenção cruzada em modelos de difusão text-to-image existentes e reforça o redirecionamento de atenção sem adicionar módulos extras. Através do Daring, mostramos que a discretização explícita do espaço textual contínuo em vários grupos básicos que se alinham com a estrutura do corpo humano é a chave para resolver o problema de desalinhamento com facilidade.

English

We present CosmicMan, a text-to-image foundation model specialized for generating high-fidelity human images. Unlike current general-purpose foundation models that are stuck in the dilemma of inferior quality and text-image misalignment for humans, CosmicMan enables generating photo-realistic human images with meticulous appearance, reasonable structure, and precise text-image alignment with detailed dense descriptions. At the heart of CosmicMan's success are the new reflections and perspectives on data and models: (1) We found that data quality and a scalable data production flow are essential for the final results from trained models. Hence, we propose a new data production paradigm, Annotate Anyone, which serves as a perpetual data flywheel to produce high-quality data with accurate yet cost-effective annotations over time. Based on this, we constructed a large-scale dataset, CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean resolution of 1488x1255, and attached with precise text annotations deriving from 115 Million attributes in diverse granularities. (2) We argue that a text-to-image foundation model specialized for humans must be pragmatic -- easy to integrate into down-streaming tasks while effective in producing high-quality human images. Hence, we propose to model the relationship between dense text descriptions and image pixels in a decomposed manner, and present Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly decomposes the cross-attention features in existing text-to-image diffusion model, and enforces attention refocusing without adding extra modules. Through Daring, we show that explicitly discretizing continuous text space into several basic groups that align with human body structure is the key to tackling the misalignment problem in a breeze.

CosmicMan: Um Modelo de Base Texto-para-Imagem para Humanos

CosmicMan: A Text-to-Image Foundation Model for Humans

Resumo

Support