CosmicMan : Un modèle de fondation texte-image dédié aux humains

papers.abstract

Nous présentons CosmicMan, un modèle de base text-to-image spécialisé dans la génération d'images humaines de haute fidélité. Contrairement aux modèles de base généralistes actuels, qui sont confrontés au dilemme d'une qualité inférieure et d'un désalignement texte-image pour les humains, CosmicMan permet de générer des images humaines photo-réalistes avec une apparence méticuleuse, une structure raisonnable et un alignement précis entre le texte et l'image grâce à des descriptions denses et détaillées. Au cœur du succès de CosmicMan se trouvent de nouvelles réflexions et perspectives sur les données et les modèles : (1) Nous avons constaté que la qualité des données et un flux de production de données scalable sont essentiels pour les résultats finaux des modèles entraînés. Par conséquent, nous proposons un nouveau paradigme de production de données, Annotate Anyone, qui sert de volant d'inertie perpétuel pour produire des données de haute qualité avec des annotations précises et rentables au fil du temps. Sur cette base, nous avons construit un jeu de données à grande échelle, CosmicMan-HQ 1.0, comprenant 6 millions d'images humaines de haute qualité en résolution moyenne de 1488x1255, accompagnées d'annotations textuelles précises dérivées de 115 millions d'attributs à divers niveaux de granularité. (2) Nous soutenons qu'un modèle de base text-to-image spécialisé pour les humains doit être pragmatique — facile à intégrer dans les tâches en aval tout en étant efficace pour produire des images humaines de haute qualité. Par conséquent, nous proposons de modéliser la relation entre les descriptions textuelles denses et les pixels d'image de manière décomposée, et présentons le cadre d'entraînement Decomposed-Attention-Refocusing (Daring). Il décompose de manière transparente les caractéristiques d'attention croisée dans le modèle de diffusion text-to-image existant et impose un recentrage de l'attention sans ajouter de modules supplémentaires. Grâce à Daring, nous montrons que la discrétisation explicite de l'espace textuel continu en plusieurs groupes de base alignés sur la structure du corps humain est la clé pour résoudre le problème de désalignement avec facilité.

English

We present CosmicMan, a text-to-image foundation model specialized for generating high-fidelity human images. Unlike current general-purpose foundation models that are stuck in the dilemma of inferior quality and text-image misalignment for humans, CosmicMan enables generating photo-realistic human images with meticulous appearance, reasonable structure, and precise text-image alignment with detailed dense descriptions. At the heart of CosmicMan's success are the new reflections and perspectives on data and models: (1) We found that data quality and a scalable data production flow are essential for the final results from trained models. Hence, we propose a new data production paradigm, Annotate Anyone, which serves as a perpetual data flywheel to produce high-quality data with accurate yet cost-effective annotations over time. Based on this, we constructed a large-scale dataset, CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean resolution of 1488x1255, and attached with precise text annotations deriving from 115 Million attributes in diverse granularities. (2) We argue that a text-to-image foundation model specialized for humans must be pragmatic -- easy to integrate into down-streaming tasks while effective in producing high-quality human images. Hence, we propose to model the relationship between dense text descriptions and image pixels in a decomposed manner, and present Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly decomposes the cross-attention features in existing text-to-image diffusion model, and enforces attention refocusing without adding extra modules. Through Daring, we show that explicitly discretizing continuous text space into several basic groups that align with human body structure is the key to tackling the misalignment problem in a breeze.

CosmicMan : Un modèle de fondation texte-image dédié aux humains

CosmicMan: A Text-to-Image Foundation Model for Humans

papers.abstract

Support