Hunyuan-DiT: Um Poderoso Transformer de Difusão Multi-Resolução com Compreensão Fina do Chinês

Resumo

Apresentamos o Hunyuan-DiT, um transformador de difusão de texto para imagem com compreensão refinada tanto do inglês quanto do chinês. Para construir o Hunyuan-DiT, projetamos cuidadosamente a estrutura do transformador, o codificador de texto e a codificação posicional. Também desenvolvemos do zero um pipeline completo de dados para atualizar e avaliar os dados para a otimização iterativa do modelo. Para a compreensão refinada da linguagem, treinamos um Modelo de Linguagem Multimodal de Grande Escala para refinar as legendas das imagens. Por fim, o Hunyuan-DiT é capaz de realizar diálogos multimodais de múltiplas interações com os usuários, gerando e refinando imagens de acordo com o contexto. Através do nosso protocolo holístico de avaliação humana com mais de 50 avaliadores profissionais, o Hunyuan-DiT estabelece um novo estado da arte na geração de imagens a partir do chinês em comparação com outros modelos de código aberto. O código e os modelos pré-treinados estão disponíveis publicamente em github.com/Tencent/HunyuanDiT.

English

We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT

Hunyuan-DiT: Um Poderoso Transformer de Difusão Multi-Resolução com Compreensão Fina do Chinês

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

Resumo

Support