ChatPaper.aiChatPaper

Hunyuan-DiT: 세밀한 중국어 이해를 지원하는 강력한 다중 해상도 확산 트랜스포머

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024
저자: Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu
cs.AI

초록

우리는 영어와 중국어 모두에 대한 세밀한 이해를 갖춘 텍스트-이미지 확산 트랜스포머인 Hunyuan-DiT를 소개합니다. Hunyuan-DiT를 구축하기 위해 트랜스포머 구조, 텍스트 인코더, 그리고 위치 인코딩을 신중하게 설계했습니다. 또한 반복적인 모델 최적화를 위해 데이터를 업데이트하고 평가할 수 있는 전체 데이터 파이프라인을 처음부터 구축했습니다. 세밀한 언어 이해를 위해, 우리는 이미지 캡션을 개선하기 위해 다중모달 대형 언어 모델을 학습시켰습니다. 마지막으로, Hunyuan-DiT는 사용자와 다중모달 대화를 수행하며, 문맥에 따라 이미지를 생성하고 개선할 수 있습니다. 50명 이상의 전문 평가자들이 참여한 종합적인 인간 평가 프로토콜을 통해, Hunyuan-DiT는 다른 오픈소스 모델들과 비교하여 중국어-이미지 생성 분야에서 새로운 최첨단 기술을 달성했습니다. 코드와 사전 학습된 모델은 github.com/Tencent/HunyuanDiT에서 공개적으로 이용 가능합니다.
English
We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT

Summary

AI-Generated Summary

PDF252December 15, 2024