CosmicMan: Un Modelo Fundacional de Texto a Imagen para Humanos
CosmicMan: A Text-to-Image Foundation Model for Humans
April 1, 2024
Autores: Shikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu
cs.AI
Resumen
Presentamos CosmicMan, un modelo base de texto a imagen especializado en la generación de imágenes humanas de alta fidelidad. A diferencia de los modelos base de propósito general actuales, que se enfrentan al dilema de una calidad inferior y una desalineación entre texto e imagen en el caso de humanos, CosmicMan permite generar imágenes humanas fotorrealistas con una apariencia meticulosa, una estructura razonable y una alineación precisa entre texto e imagen con descripciones densas y detalladas. En el núcleo del éxito de CosmicMan se encuentran nuevas reflexiones y perspectivas sobre los datos y los modelos: (1) Descubrimos que la calidad de los datos y un flujo escalable de producción de datos son esenciales para los resultados finales de los modelos entrenados. Por ello, proponemos un nuevo paradigma de producción de datos, Annotate Anyone, que sirve como un volante de inercia perpetuo para producir datos de alta calidad con anotaciones precisas y rentables a lo largo del tiempo. Basándonos en esto, construimos un conjunto de datos a gran escala, CosmicMan-HQ 1.0, con 6 millones de imágenes humanas de alta calidad del mundo real en una resolución media de 1488x1255, acompañadas de anotaciones textuales precisas derivadas de 115 millones de atributos en diversas granularidades. (2) Argumentamos que un modelo base de texto a imagen especializado en humanos debe ser pragmático: fácil de integrar en tareas posteriores mientras es efectivo en la producción de imágenes humanas de alta calidad. Por ello, proponemos modelar la relación entre descripciones textuales densas y píxeles de imagen de manera descompuesta, y presentamos el marco de entrenamiento Decomposed-Attention-Refocusing (Daring). Este descompone de manera fluida las características de atención cruzada en los modelos de difusión de texto a imagen existentes, y refuerza el enfoque de la atención sin añadir módulos adicionales. A través de Daring, demostramos que discretizar explícitamente el espacio de texto continuo en varios grupos básicos que se alinean con la estructura del cuerpo humano es la clave para resolver el problema de desalineación con facilidad.
English
We present CosmicMan, a text-to-image foundation model specialized for
generating high-fidelity human images. Unlike current general-purpose
foundation models that are stuck in the dilemma of inferior quality and
text-image misalignment for humans, CosmicMan enables generating
photo-realistic human images with meticulous appearance, reasonable structure,
and precise text-image alignment with detailed dense descriptions. At the heart
of CosmicMan's success are the new reflections and perspectives on data and
models: (1) We found that data quality and a scalable data production flow are
essential for the final results from trained models. Hence, we propose a new
data production paradigm, Annotate Anyone, which serves as a perpetual data
flywheel to produce high-quality data with accurate yet cost-effective
annotations over time. Based on this, we constructed a large-scale dataset,
CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean
resolution of 1488x1255, and attached with precise text annotations deriving
from 115 Million attributes in diverse granularities. (2) We argue that a
text-to-image foundation model specialized for humans must be pragmatic -- easy
to integrate into down-streaming tasks while effective in producing
high-quality human images. Hence, we propose to model the relationship between
dense text descriptions and image pixels in a decomposed manner, and present
Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly
decomposes the cross-attention features in existing text-to-image diffusion
model, and enforces attention refocusing without adding extra modules. Through
Daring, we show that explicitly discretizing continuous text space into several
basic groups that align with human body structure is the key to tackling the
misalignment problem in a breeze.Summary
AI-Generated Summary