ChatPaper.aiChatPaper

Hunyuan-DiT: 細粒度な中国語理解を備えた強力なマルチレゾリューション拡散Transformer

Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024
著者: Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu
cs.AI

要旨

我々は、英語と中国語の両方に対して細粒度の理解を備えたテキスト画像変換拡散モデル「Hunyuan-DiT」を発表する。Hunyuan-DiTを構築するにあたり、Transformerの構造、テキストエンコーダ、位置エンコーディングを慎重に設計した。また、モデルの反復的な最適化のためにデータを更新・評価するための完全なデータパイプラインを一から構築した。細粒度の言語理解を実現するため、マルチモーダル大規模言語モデルを訓練し、画像のキャプションを洗練させた。最終的に、Hunyuan-DiTはユーザーとのマルチターン・マルチモーダル対話を可能とし、文脈に応じて画像を生成・修正することができる。50人以上の専門家による包括的な人間評価プロトコルを通じて、Hunyuan-DiTは他のオープンソースモデルと比較して中国語から画像を生成するタスクにおいて新たな最先端を確立した。コードと事前学習済みモデルはgithub.com/Tencent/HunyuanDiTで公開されている。
English
We present Hunyuan-DiT, a text-to-image diffusion transformer with fine-grained understanding of both English and Chinese. To construct Hunyuan-DiT, we carefully design the transformer structure, text encoder, and positional encoding. We also build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. For fine-grained language understanding, we train a Multimodal Large Language Model to refine the captions of the images. Finally, Hunyuan-DiT can perform multi-turn multimodal dialogue with users, generating and refining images according to the context. Through our holistic human evaluation protocol with more than 50 professional human evaluators, Hunyuan-DiT sets a new state-of-the-art in Chinese-to-image generation compared with other open-source models. Code and pretrained models are publicly available at github.com/Tencent/HunyuanDiT

Summary

AI-Generated Summary

PDF252December 15, 2024