Hunyuan-DiT: Un Transformador de Difusión Multirresolución Potente con Comprensión Fina del Chino
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding
May 14, 2024
Autores: Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu
cs.AI
Resumen
Presentamos Hunyuan-DiT, un transformador de difusión de texto a imagen con una comprensión detallada tanto del inglés como del chino. Para construir Hunyuan-DiT, diseñamos cuidadosamente la estructura del transformador, el codificador de texto y la codificación posicional. También desarrollamos desde cero una canalización completa de datos para actualizar y evaluar la información con el fin de optimizar el modelo de manera iterativa. Para lograr una comprensión lingüística detallada, entrenamos un Modelo de Lenguaje Multimodal de Gran Escala para refinar los subtítulos de las imágenes. Finalmente, Hunyuan-DiT puede realizar diálogos multimodales de múltiples turnos con los usuarios, generando y refinando imágenes según el contexto. A través de nuestro protocolo integral de evaluación humana con más de 50 evaluadores profesionales, Hunyuan-DiT establece un nuevo estado del arte en la generación de imágenes a partir de texto en chino en comparación con otros modelos de código abierto. El código y los modelos preentrenados están disponibles públicamente en github.com/Tencent/HunyuanDiT.
English
We present Hunyuan-DiT, a text-to-image diffusion transformer with
fine-grained understanding of both English and Chinese. To construct
Hunyuan-DiT, we carefully design the transformer structure, text encoder, and
positional encoding. We also build from scratch a whole data pipeline to update
and evaluate data for iterative model optimization. For fine-grained language
understanding, we train a Multimodal Large Language Model to refine the
captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal
dialogue with users, generating and refining images according to the context.
Through our holistic human evaluation protocol with more than 50 professional
human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image
generation compared with other open-source models. Code and pretrained models
are publicly available at github.com/Tencent/HunyuanDiTSummary
AI-Generated Summary