ChatPaper.aiChatPaper

HunyuanImage 3.0 技術報告書

HunyuanImage 3.0 Technical Report

September 28, 2025
著者: Siyu Cao, Hangting Chen, Peng Chen, Yiji Cheng, Yutao Cui, Xinchi Deng, Ying Dong, Kipper Gong, Tianpeng Gu, Xiusen Gu, Tiankai Hang, Duojun Huang, Jie Jiang, Zhengkai Jiang, Weijie Kong, Changlin Li, Donghao Li, Junzhe Li, Xin Li, Yang Li, Zhenxi Li, Zhimin Li, Jiaxin Lin, Linus, Lucaz Liu, Shu Liu, Songtao Liu, Yu Liu, Yuhong Liu, Yanxin Long, Fanbin Lu, Qinglin Lu, Yuyang Peng, Yuanbo Peng, Xiangwei Shen, Yixuan Shi, Jiale Tao, Yangyu Tao, Qi Tian, Pengfei Wan, Chunyu Wang, Kai Wang, Lei Wang, Linqing Wang, Lucas Wang, Qixun Wang, Weiyan Wang, Hao Wen, Bing Wu, Jianbing Wu, Yue Wu, Senhao Xie, Fang Yang, Miles Yang, Xiaofeng Yang, Xuan Yang, Zhantao Yang, Jingmiao Yu, Zheng Yuan, Chao Zhang, Jian-Wei Zhang, Peizhen Zhang, Shi-Xue Zhang, Tao Zhang, Weigang Zhang, Yepeng Zhang, Yingfang Zhang, Zihao Zhang, Zijian Zhang, Penghao Zhao, Zhiyuan Zhao, Xuefei Zhe, Jianchen Zhu, Zhao Zhong
cs.AI

要旨

我々は、HunyuanImage 3.0を紹介する。これは、マルチモーダル理解と生成をオートレグレッシブフレームワーク内で統合したネイティブマルチモーダルモデルであり、その画像生成モジュールは公開されている。HunyuanImage 3.0の達成は、入念なデータキュレーション、先進的なアーキテクチャ設計、ネイティブなChain-of-Thoughtsスキーマ、段階的なモデル事前学習、積極的なモデル事後学習、そして大規模な学習と推論を可能にする効率的なインフラストラクチャといったいくつかの重要な要素に依存している。これらの進歩により、我々は合計800億以上のパラメータを有し、推論時にトークンごとに130億のパラメータが活性化されるMixture-of-Experts(MoE)モデルの学習に成功した。これは、現在までで最大かつ最も強力なオープンソース画像生成モデルである。我々は広範な実験を行い、テキストと画像の整合性および視覚的品質の自動評価と人間による評価の結果は、HunyuanImage 3.0が従来の最先端モデルに匹敵することを示している。HunyuanImage 3.0のコードと重みを公開することで、我々はコミュニティが最先端の基盤モデルを用いて新しいアイデアを探求できるようにし、ダイナミックで活気あるマルチモーダルエコシステムを促進することを目指している。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanImage-3.0で公開されている。
English
We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
PDF112September 30, 2025