ChatPaper.aiChatPaper

HunyuanImage 3.0 Technisch Rapport

HunyuanImage 3.0 Technical Report

September 28, 2025
Auteurs: Siyu Cao, Hangting Chen, Peng Chen, Yiji Cheng, Yutao Cui, Xinchi Deng, Ying Dong, Kipper Gong, Tianpeng Gu, Xiusen Gu, Tiankai Hang, Duojun Huang, Jie Jiang, Zhengkai Jiang, Weijie Kong, Changlin Li, Donghao Li, Junzhe Li, Xin Li, Yang Li, Zhenxi Li, Zhimin Li, Jiaxin Lin, Linus, Lucaz Liu, Shu Liu, Songtao Liu, Yu Liu, Yuhong Liu, Yanxin Long, Fanbin Lu, Qinglin Lu, Yuyang Peng, Yuanbo Peng, Xiangwei Shen, Yixuan Shi, Jiale Tao, Yangyu Tao, Qi Tian, Pengfei Wan, Chunyu Wang, Kai Wang, Lei Wang, Linqing Wang, Lucas Wang, Qixun Wang, Weiyan Wang, Hao Wen, Bing Wu, Jianbing Wu, Yue Wu, Senhao Xie, Fang Yang, Miles Yang, Xiaofeng Yang, Xuan Yang, Zhantao Yang, Jingmiao Yu, Zheng Yuan, Chao Zhang, Jian-Wei Zhang, Peizhen Zhang, Shi-Xue Zhang, Tao Zhang, Weigang Zhang, Yepeng Zhang, Yingfang Zhang, Zihao Zhang, Zijian Zhang, Penghao Zhao, Zhiyuan Zhao, Xuefei Zhe, Jianchen Zhu, Zhao Zhong
cs.AI

Samenvatting

We presenteren HunyuanImage 3.0, een native multimodale model dat multimodale begrip en generatie verenigt binnen een autoregressief raamwerk, waarbij de beeldgeneratiemodule publiekelijk beschikbaar is. De realisatie van HunyuanImage 3.0 berust op verschillende cruciale componenten, waaronder zorgvuldige datacuratie, geavanceerde architectuurontwerpen, een native Chain-of-Thoughts-schema, progressieve modelpretraining, agressieve modelposttraining en een efficiënte infrastructuur die grootschalige training en inferentie mogelijk maakt. Met deze vooruitgang hebben we succesvol een Mixture-of-Experts (MoE)-model getraind dat in totaal meer dan 80 miljard parameters omvat, waarbij 13 miljard parameters per token worden geactiveerd tijdens inferentie, wat het tot het grootste en krachtigste open-source beeldgeneratieve model tot op heden maakt. We hebben uitgebreide experimenten uitgevoerd en de resultaten van automatische en menselijke evaluatie van tekst-beeld-alignment en visuele kwaliteit tonen aan dat HunyuanImage 3.0 wedijvert met eerdere state-of-the-art modellen. Door de code en gewichten van HunyuanImage 3.0 vrij te geven, streven we ernaar de gemeenschap in staat te stellen nieuwe ideeën te verkennen met een state-of-the-art foundationmodel, wat een dynamisch en levendig multimodaal ecosysteem bevordert. Alle open source-assets zijn publiekelijk beschikbaar op https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
English
We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
PDF212September 30, 2025