Relatório Técnico do HunyuanImage 3.0

Resumo

Apresentamos o HunyuanImage 3.0, um modelo multimodal nativo que unifica a compreensão e a geração multimodal em um framework autoregressivo, com seu módulo de geração de imagens disponível publicamente. A realização do HunyuanImage 3.0 depende de vários componentes-chave, incluindo curadoria meticulosa de dados, design de arquitetura avançado, um esquema nativo de Chain-of-Thoughts, pré-treinamento progressivo do modelo, pós-treinamento agressivo do modelo e uma infraestrutura eficiente que permite treinamento e inferência em larga escala. Com esses avanços, treinamos com sucesso um modelo Mixture-of-Experts (MoE) composto por mais de 80 bilhões de parâmetros no total, com 13 bilhões de parâmetros ativados por token durante a inferência, tornando-o o maior e mais poderoso modelo de geração de imagens de código aberto até o momento. Realizamos extensos experimentos, e os resultados das avaliações automáticas e humanas de alinhamento texto-imagem e qualidade visual demonstram que o HunyuanImage 3.0 rivaliza com os modelos state-of-the-art anteriores. Ao liberar o código e os pesos do HunyuanImage 3.0, nosso objetivo é permitir que a comunidade explore novas ideias com um modelo de base state-of-the-art, promovendo um ecossistema multimodal dinâmico e vibrante. Todos os ativos de código aberto estão disponíveis publicamente em https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.

English

We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Relatório Técnico do HunyuanImage 3.0

HunyuanImage 3.0 Technical Report

Resumo

Support