훈위안비디오 1.5 기술 보고서
HunyuanVideo 1.5 Technical Report
November 24, 2025
저자: Bing Wu, Chang Zou, Changlin Li, Duojun Huang, Fang Yang, Hao Tan, Jack Peng, Jianbing Wu, Jiangfeng Xiong, Jie Jiang, Linus, Patrol, Peizhen Zhang, Peng Chen, Penghao Zhao, Qi Tian, Songtao Liu, Weijie Kong, Weiyan Wang, Xiao He, Xin Li, Xinchi Deng, Xuefei Zhe, Yang Li, Yanxin Long, Yuanbo Peng, Yue Wu, Yuhong Liu, Zhenyu Wang, Zuozhuo Dai, Bo Peng, Coopers Li, Gu Gong, Guojian Xiao, Jiahe Tian, Jiaxin Lin, Jie Liu, Jihong Zhang, Jiesong Lian, Kaihang Pan, Lei Wang, Lin Niu, Mingtao Chen, Mingyang Chen, Mingzhe Zheng, Miles Yang, Qiangqiang Hu, Qi Yang, Qiuyong Xiao, Runzhou Wu, Ryan Xu, Rui Yuan, Shanshan Sang, Shisheng Huang, Siruis Gong, Shuo Huang, Weiting Guo, Xiang Yuan, Xiaojia Chen, Xiawei Hu, Wenzhi Sun, Xiele Wu, Xianshun Ren, Xiaoyan Yuan, Xiaoyue Mi, Yepeng Zhang, Yifu Sun, Yiting Lu, Yitong Li, You Huang, Yu Tang, Yixuan Li, Yuhang Deng, Yuan Zhou, Zhichao Hu, Zhiguang Liu, Zhihe Yang, Zilin Yang, Zhenzhi Lu, Zixiang Zhou, Zhao Zhong
cs.AI
초록
저희는 경량이면서도 강력한 오픈소스 비디오 생성 모델인 HunyuanVideo 1.5를 소개합니다. 본 모델은 83억 개의 매개변수만으로도 최첨단 시각적 품질과 동작 일관성을 달성하여 소비자용 GPU에서도 효율적인 추론이 가능합니다. 이 성과는 신중하게 구성된 데이터, 선택적 및 슬라이딩 타일 어텐션(SSTA)을 특징으로 하는 향상된 DiT 아키텍처, 문자 인식 텍스트 인코딩을 통한 향상된 양국어 이해, 점진적 사전 학습 및 사후 학습, 효율적인 비디오 초해상도 네트워크를 포함한 여러 핵심 구성 요소에 기반합니다. 이러한 설계를 활용하여 다양한 길이와 해상도에서 고품질의 텍스트-비디오 및 이미지-비디오 생성을 가능하게 하는 통합 프레임워크를 개발했습니다.
광범위한 실험을 통해 이 컴팩트하면서도 능숙한 모델이 오픈소스 비디오 생성 모델 중 새로운 최첨단 기준을 수립함을 입증했습니다. 코드와 모델 가중치를 공개함으로써 비디오 생성 및 연구의 진입 장벽을 낮추고 더 많은 사용자들이 첨단 비디오 생성 기술을 접할 수 있도록 고성능 기반을 커뮤니티에 제공합니다. 모든 오픈소스 자산은 https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5에서 공개적으로 이용 가능합니다.
English
We present HunyuanVideo 1.5, a lightweight yet powerful open-source video generation model that achieves state-of-the-art visual quality and motion coherence with only 8.3 billion parameters, enabling efficient inference on consumer-grade GPUs. This achievement is built upon several key components, including meticulous data curation, an advanced DiT architecture featuring selective and sliding tile attention (SSTA), enhanced bilingual understanding through glyph-aware text encoding, progressive pre-training and post-training, and an efficient video super-resolution network. Leveraging these designs, we developed a unified framework capable of high-quality text-to-video and image-to-video generation across multiple durations and resolutions.Extensive experiments demonstrate that this compact and proficient model establishes a new state-of-the-art among open-source video generation models. By releasing the code and model weights, we provide the community with a high-performance foundation that lowers the barrier to video creation and research, making advanced video generation accessible to a broader audience. All open-source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.