ChatPaper.aiChatPaper

혼원이미지 3.0 기술 보고서

HunyuanImage 3.0 Technical Report

September 28, 2025
저자: Siyu Cao, Hangting Chen, Peng Chen, Yiji Cheng, Yutao Cui, Xinchi Deng, Ying Dong, Kipper Gong, Tianpeng Gu, Xiusen Gu, Tiankai Hang, Duojun Huang, Jie Jiang, Zhengkai Jiang, Weijie Kong, Changlin Li, Donghao Li, Junzhe Li, Xin Li, Yang Li, Zhenxi Li, Zhimin Li, Jiaxin Lin, Linus, Lucaz Liu, Shu Liu, Songtao Liu, Yu Liu, Yuhong Liu, Yanxin Long, Fanbin Lu, Qinglin Lu, Yuyang Peng, Yuanbo Peng, Xiangwei Shen, Yixuan Shi, Jiale Tao, Yangyu Tao, Qi Tian, Pengfei Wan, Chunyu Wang, Kai Wang, Lei Wang, Linqing Wang, Lucas Wang, Qixun Wang, Weiyan Wang, Hao Wen, Bing Wu, Jianbing Wu, Yue Wu, Senhao Xie, Fang Yang, Miles Yang, Xiaofeng Yang, Xuan Yang, Zhantao Yang, Jingmiao Yu, Zheng Yuan, Chao Zhang, Jian-Wei Zhang, Peizhen Zhang, Shi-Xue Zhang, Tao Zhang, Weigang Zhang, Yepeng Zhang, Yingfang Zhang, Zihao Zhang, Zijian Zhang, Penghao Zhao, Zhiyuan Zhao, Xuefei Zhe, Jianchen Zhu, Zhao Zhong
cs.AI

초록

우리는 자체 개발된 멀티모달 모델인 HunyuanImage 3.0을 소개한다. 이 모델은 자동회귀 프레임워크 내에서 멀티모달 이해와 생성을 통합하며, 이미지 생성 모듈을 공개적으로 제공한다. HunyuanImage 3.0의 성과는 세심한 데이터 큐레이션, 고급 아키텍처 설계, 자체 개발된 Chain-of-Thoughts 스키마, 점진적 모델 사전 학습, 적극적 모델 사후 학습, 그리고 대규모 학습과 추론을 가능하게 하는 효율적인 인프라 등 여러 핵심 요소에 기반한다. 이러한 발전을 통해 우리는 총 800억 개 이상의 파라미터를 가지며, 추론 시 토큰당 130억 개의 파라미터가 활성화되는 Mixture-of-Experts(MoE) 모델을 성공적으로 학습시켰다. 이는 현재까지 공개된 가장 크고 강력한 오픈소스 이미지 생성 모델이다. 우리는 광범위한 실험을 수행했으며, 텍스트-이미지 정렬과 시각적 품질에 대한 자동 및 인간 평가 결과는 HunyuanImage 3.0이 이전의 최첨단 모델들과 견줄 만함을 보여준다. HunyuanImage 3.0의 코드와 가중치를 공개함으로써, 우리는 커뮤니티가 최첨단 기반 모델을 통해 새로운 아이디어를 탐구할 수 있도록 지원하고, 활기차고 역동적인 멀티모달 생태계를 조성하고자 한다. 모든 오픈소스 자산은 https://github.com/Tencent-Hunyuan/HunyuanImage-3.0에서 공개적으로 이용 가능하다.
English
We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
PDF112September 30, 2025