ChatPaper.aiChatPaper

Rapport Technique de HunyuanVideo 1.5

HunyuanVideo 1.5 Technical Report

November 24, 2025
papers.authors: Bing Wu, Chang Zou, Changlin Li, Duojun Huang, Fang Yang, Hao Tan, Jack Peng, Jianbing Wu, Jiangfeng Xiong, Jie Jiang, Linus, Patrol, Peizhen Zhang, Peng Chen, Penghao Zhao, Qi Tian, Songtao Liu, Weijie Kong, Weiyan Wang, Xiao He, Xin Li, Xinchi Deng, Xuefei Zhe, Yang Li, Yanxin Long, Yuanbo Peng, Yue Wu, Yuhong Liu, Zhenyu Wang, Zuozhuo Dai, Bo Peng, Coopers Li, Gu Gong, Guojian Xiao, Jiahe Tian, Jiaxin Lin, Jie Liu, Jihong Zhang, Jiesong Lian, Kaihang Pan, Lei Wang, Lin Niu, Mingtao Chen, Mingyang Chen, Mingzhe Zheng, Miles Yang, Qiangqiang Hu, Qi Yang, Qiuyong Xiao, Runzhou Wu, Ryan Xu, Rui Yuan, Shanshan Sang, Shisheng Huang, Siruis Gong, Shuo Huang, Weiting Guo, Xiang Yuan, Xiaojia Chen, Xiawei Hu, Wenzhi Sun, Xiele Wu, Xianshun Ren, Xiaoyan Yuan, Xiaoyue Mi, Yepeng Zhang, Yifu Sun, Yiting Lu, Yitong Li, You Huang, Yu Tang, Yixuan Li, Yuhang Deng, Yuan Zhou, Zhichao Hu, Zhiguang Liu, Zhihe Yang, Zilin Yang, Zhenzhi Lu, Zixiang Zhou, Zhao Zhong
cs.AI

papers.abstract

Nous présentons HunyuanVideo 1.5, un modèle open-source de génération vidéo léger mais puissant qui atteint une qualité visuelle et une cohérence du mouvement à la pointe de l'état de l'art avec seulement 8,3 milliards de paramètres, permettant une inférence efficace sur des GPU grand public. Cette réalisation repose sur plusieurs composants clés, incluant une curation méticuleuse des données, une architecture DiT avancée dotée d'un mécanisme d'attention sélective et glissante (SSTA), une compréhension bilingue améliorée via un encodage de texte sensible à la glyphe, un pré-entraînement et un post-entraînement progressifs, et un réseau efficace de super-résolution vidéo. En capitalisant sur ces conceptions, nous avons développé un cadre unifié capable d'une génération vidéo de haute qualité, qu'elle soit texte-à-vidéo ou image-à-vidéo, sur plusieurs durées et résolutions. Des expériences approfondies démontrent que ce modèle compact et compétent établit un nouvel état de l'art parmi les modèles open-source de génération vidéo. En publiant le code et les poids du modèle, nous fournissons à la communauté une base performante qui abaisse la barrière à la création et à la recherche vidéo, rendant la génération vidéo avancée accessible à un public plus large. Tous les actifs open-source sont disponibles publiquement à l'adresse https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
English
We present HunyuanVideo 1.5, a lightweight yet powerful open-source video generation model that achieves state-of-the-art visual quality and motion coherence with only 8.3 billion parameters, enabling efficient inference on consumer-grade GPUs. This achievement is built upon several key components, including meticulous data curation, an advanced DiT architecture featuring selective and sliding tile attention (SSTA), enhanced bilingual understanding through glyph-aware text encoding, progressive pre-training and post-training, and an efficient video super-resolution network. Leveraging these designs, we developed a unified framework capable of high-quality text-to-video and image-to-video generation across multiple durations and resolutions.Extensive experiments demonstrate that this compact and proficient model establishes a new state-of-the-art among open-source video generation models. By releasing the code and model weights, we provide the community with a high-performance foundation that lowers the barrier to video creation and research, making advanced video generation accessible to a broader audience. All open-source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
PDF281February 7, 2026