Rapport Technique de HunyuanImage 3.0

Résumé

Nous présentons HunyuanImage 3.0, un modèle multimodal natif qui unifie la compréhension et la génération multimodales dans un cadre autoregressif, avec son module de génération d’images rendu public. La réalisation de HunyuanImage 3.0 repose sur plusieurs composants clés, incluant une curation minutieuse des données, une conception architecturale avancée, un schéma natif de Chaîne de Pensées (Chain-of-Thoughts), un pré-entraînement progressif du modèle, un post-entraînement intensif, ainsi qu’une infrastructure efficace permettant un entraînement et une inférence à grande échelle. Grâce à ces avancées, nous avons réussi à entraîner un modèle de Mélange d’Experts (Mixture-of-Experts, MoE) comprenant plus de 80 milliards de paramètres au total, avec 13 milliards de paramètres activés par token lors de l’inférence, ce qui en fait le modèle génératif d’images open source le plus grand et le plus puissant à ce jour. Nous avons mené des expériences approfondies, et les résultats des évaluations automatiques et humaines concernant l’alignement texte-image et la qualité visuelle démontrent que HunyuanImage 3.0 rivalise avec les modèles de pointe précédents. En publiant le code et les poids de HunyuanImage 3.0, nous visons à permettre à la communauté d’explorer de nouvelles idées avec un modèle de fondation de pointe, favorisant ainsi un écosystème multimodal dynamique et vivant. Tous les actifs open source sont disponibles publiquement à l’adresse suivante : https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.

English

We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0