Технический отчет HunyuanImage 3.0

Аннотация

Мы представляем HunyuanImage 3.0 — нативную мультимодальную модель, которая объединяет мультимодальное понимание и генерацию в рамках авторегрессионной архитектуры, при этом модуль генерации изображений доступен публично. Достижение HunyuanImage 3.0 стало возможным благодаря нескольким ключевым компонентам, включая тщательную подготовку данных, передовой дизайн архитектуры, нативную схему Chain-of-Thoughts, прогрессивное предварительное обучение модели, агрессивное пост-обучение и эффективную инфраструктуру, обеспечивающую масштабируемое обучение и вывод. Благодаря этим усовершенствованиям мы успешно обучили модель Mixture-of-Experts (MoE), содержащую более 80 миллиардов параметров, с активацией 13 миллиардов параметров на каждый токен во время вывода, что делает её самой крупной и мощной открытой моделью для генерации изображений на сегодняшний день. Мы провели обширные эксперименты, и результаты автоматической и человеческой оценки соответствия текста и изображения, а также визуального качества демонстрируют, что HunyuanImage 3.0 конкурирует с предыдущими моделями, достигшими наивысших результатов. Публикуя код и веса HunyuanImage 3.0, мы стремимся предоставить сообществу возможность исследовать новые идеи на основе передовой фундаментальной модели, способствуя созданию динамичной и активной мультимодальной экосистемы. Все открытые ресурсы доступны по адресу: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.

English

We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0