CosmicMan : Un modèle de fondation texte-image dédié aux humains
CosmicMan: A Text-to-Image Foundation Model for Humans
April 1, 2024
Auteurs: Shikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu
cs.AI
Résumé
Nous présentons CosmicMan, un modèle de base text-to-image spécialisé dans la génération d'images humaines de haute fidélité. Contrairement aux modèles de base généralistes actuels, qui sont confrontés au dilemme d'une qualité inférieure et d'un désalignement texte-image pour les humains, CosmicMan permet de générer des images humaines photo-réalistes avec une apparence méticuleuse, une structure raisonnable et un alignement précis entre le texte et l'image grâce à des descriptions denses et détaillées. Au cœur du succès de CosmicMan se trouvent de nouvelles réflexions et perspectives sur les données et les modèles : (1) Nous avons constaté que la qualité des données et un flux de production de données scalable sont essentiels pour les résultats finaux des modèles entraînés. Par conséquent, nous proposons un nouveau paradigme de production de données, Annotate Anyone, qui sert de volant d'inertie perpétuel pour produire des données de haute qualité avec des annotations précises et rentables au fil du temps. Sur cette base, nous avons construit un jeu de données à grande échelle, CosmicMan-HQ 1.0, comprenant 6 millions d'images humaines de haute qualité en résolution moyenne de 1488x1255, accompagnées d'annotations textuelles précises dérivées de 115 millions d'attributs à divers niveaux de granularité. (2) Nous soutenons qu'un modèle de base text-to-image spécialisé pour les humains doit être pragmatique — facile à intégrer dans les tâches en aval tout en étant efficace pour produire des images humaines de haute qualité. Par conséquent, nous proposons de modéliser la relation entre les descriptions textuelles denses et les pixels d'image de manière décomposée, et présentons le cadre d'entraînement Decomposed-Attention-Refocusing (Daring). Il décompose de manière transparente les caractéristiques d'attention croisée dans le modèle de diffusion text-to-image existant et impose un recentrage de l'attention sans ajouter de modules supplémentaires. Grâce à Daring, nous montrons que la discrétisation explicite de l'espace textuel continu en plusieurs groupes de base alignés sur la structure du corps humain est la clé pour résoudre le problème de désalignement avec facilité.
English
We present CosmicMan, a text-to-image foundation model specialized for
generating high-fidelity human images. Unlike current general-purpose
foundation models that are stuck in the dilemma of inferior quality and
text-image misalignment for humans, CosmicMan enables generating
photo-realistic human images with meticulous appearance, reasonable structure,
and precise text-image alignment with detailed dense descriptions. At the heart
of CosmicMan's success are the new reflections and perspectives on data and
models: (1) We found that data quality and a scalable data production flow are
essential for the final results from trained models. Hence, we propose a new
data production paradigm, Annotate Anyone, which serves as a perpetual data
flywheel to produce high-quality data with accurate yet cost-effective
annotations over time. Based on this, we constructed a large-scale dataset,
CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean
resolution of 1488x1255, and attached with precise text annotations deriving
from 115 Million attributes in diverse granularities. (2) We argue that a
text-to-image foundation model specialized for humans must be pragmatic -- easy
to integrate into down-streaming tasks while effective in producing
high-quality human images. Hence, we propose to model the relationship between
dense text descriptions and image pixels in a decomposed manner, and present
Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly
decomposes the cross-attention features in existing text-to-image diffusion
model, and enforces attention refocusing without adding extra modules. Through
Daring, we show that explicitly discretizing continuous text space into several
basic groups that align with human body structure is the key to tackling the
misalignment problem in a breeze.Summary
AI-Generated Summary