CosmicMan: Un Modelo Fundacional de Texto a Imagen para Humanos

Resumen

Presentamos CosmicMan, un modelo base de texto a imagen especializado en la generación de imágenes humanas de alta fidelidad. A diferencia de los modelos base de propósito general actuales, que se enfrentan al dilema de una calidad inferior y una desalineación entre texto e imagen en el caso de humanos, CosmicMan permite generar imágenes humanas fotorrealistas con una apariencia meticulosa, una estructura razonable y una alineación precisa entre texto e imagen con descripciones densas y detalladas. En el núcleo del éxito de CosmicMan se encuentran nuevas reflexiones y perspectivas sobre los datos y los modelos: (1) Descubrimos que la calidad de los datos y un flujo escalable de producción de datos son esenciales para los resultados finales de los modelos entrenados. Por ello, proponemos un nuevo paradigma de producción de datos, Annotate Anyone, que sirve como un volante de inercia perpetuo para producir datos de alta calidad con anotaciones precisas y rentables a lo largo del tiempo. Basándonos en esto, construimos un conjunto de datos a gran escala, CosmicMan-HQ 1.0, con 6 millones de imágenes humanas de alta calidad del mundo real en una resolución media de 1488x1255, acompañadas de anotaciones textuales precisas derivadas de 115 millones de atributos en diversas granularidades. (2) Argumentamos que un modelo base de texto a imagen especializado en humanos debe ser pragmático: fácil de integrar en tareas posteriores mientras es efectivo en la producción de imágenes humanas de alta calidad. Por ello, proponemos modelar la relación entre descripciones textuales densas y píxeles de imagen de manera descompuesta, y presentamos el marco de entrenamiento Decomposed-Attention-Refocusing (Daring). Este descompone de manera fluida las características de atención cruzada en los modelos de difusión de texto a imagen existentes, y refuerza el enfoque de la atención sin añadir módulos adicionales. A través de Daring, demostramos que discretizar explícitamente el espacio de texto continuo en varios grupos básicos que se alinean con la estructura del cuerpo humano es la clave para resolver el problema de desalineación con facilidad.

English

We present CosmicMan, a text-to-image foundation model specialized for generating high-fidelity human images. Unlike current general-purpose foundation models that are stuck in the dilemma of inferior quality and text-image misalignment for humans, CosmicMan enables generating photo-realistic human images with meticulous appearance, reasonable structure, and precise text-image alignment with detailed dense descriptions. At the heart of CosmicMan's success are the new reflections and perspectives on data and models: (1) We found that data quality and a scalable data production flow are essential for the final results from trained models. Hence, we propose a new data production paradigm, Annotate Anyone, which serves as a perpetual data flywheel to produce high-quality data with accurate yet cost-effective annotations over time. Based on this, we constructed a large-scale dataset, CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean resolution of 1488x1255, and attached with precise text annotations deriving from 115 Million attributes in diverse granularities. (2) We argue that a text-to-image foundation model specialized for humans must be pragmatic -- easy to integrate into down-streaming tasks while effective in producing high-quality human images. Hence, we propose to model the relationship between dense text descriptions and image pixels in a decomposed manner, and present Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly decomposes the cross-attention features in existing text-to-image diffusion model, and enforces attention refocusing without adding extra modules. Through Daring, we show that explicitly discretizing continuous text space into several basic groups that align with human body structure is the key to tackling the misalignment problem in a breeze.

CosmicMan: Un Modelo Fundacional de Texto a Imagen para Humanos

CosmicMan: A Text-to-Image Foundation Model for Humans

Resumen

Support