Hunyuan-DiT: Un Potente Trasformatore di Diffusione Multi-Risoluzione con Comprensione Fine-Granularità del Cinese

Abstract

Presentiamo Hunyuan-DiT, un trasformatore di diffusione da testo a immagine con una comprensione fine sia dell'inglese che del cinese. Per costruire Hunyuan-DiT, abbiamo progettato con cura la struttura del trasformatore, l'encoder di testo e la codifica posizionale. Abbiamo inoltre sviluppato da zero un'intera pipeline di dati per aggiornare e valutare i dati per l'ottimizzazione iterativa del modello. Per una comprensione fine del linguaggio, abbiamo addestrato un Modello Linguistico Multimodale di Grande Scala per affinare le descrizioni delle immagini. Infine, Hunyuan-DiT è in grado di eseguire dialoghi multimodali multi-turn con gli utenti, generando e perfezionando le immagini in base al contesto. Attraverso il nostro protocollo di valutazione umana olistico con più di 50 valutatori umani professionisti, Hunyuan-DiT stabilisce un nuovo stato dell'arte nella generazione di immagini da testo cinese rispetto ad altri modelli open-source. Il codice e i modelli preaddestrati sono disponibili pubblicamente su github.com/Tencent/HunyuanDiT.

English

We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT

Hunyuan-DiT: Un Potente Trasformatore di Diffusione Multi-Risoluzione con Comprensione Fine-Granularità del Cinese

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

Abstract

Support