浑元视频1.5技术报告
HunyuanVideo 1.5 Technical Report
November 24, 2025
著者: Bing Wu, Chang Zou, Changlin Li, Duojun Huang, Fang Yang, Hao Tan, Jack Peng, Jianbing Wu, Jiangfeng Xiong, Jie Jiang, Linus, Patrol, Peizhen Zhang, Peng Chen, Penghao Zhao, Qi Tian, Songtao Liu, Weijie Kong, Weiyan Wang, Xiao He, Xin Li, Xinchi Deng, Xuefei Zhe, Yang Li, Yanxin Long, Yuanbo Peng, Yue Wu, Yuhong Liu, Zhenyu Wang, Zuozhuo Dai, Bo Peng, Coopers Li, Gu Gong, Guojian Xiao, Jiahe Tian, Jiaxin Lin, Jie Liu, Jihong Zhang, Jiesong Lian, Kaihang Pan, Lei Wang, Lin Niu, Mingtao Chen, Mingyang Chen, Mingzhe Zheng, Miles Yang, Qiangqiang Hu, Qi Yang, Qiuyong Xiao, Runzhou Wu, Ryan Xu, Rui Yuan, Shanshan Sang, Shisheng Huang, Siruis Gong, Shuo Huang, Weiting Guo, Xiang Yuan, Xiaojia Chen, Xiawei Hu, Wenzhi Sun, Xiele Wu, Xianshun Ren, Xiaoyan Yuan, Xiaoyue Mi, Yepeng Zhang, Yifu Sun, Yiting Lu, Yitong Li, You Huang, Yu Tang, Yixuan Li, Yuhang Deng, Yuan Zhou, Zhichao Hu, Zhiguang Liu, Zhihe Yang, Zilin Yang, Zhenzhi Lu, Zixiang Zhou, Zhao Zhong
cs.AI
要旨
本論文では、軽量でありながら強力なオープンソース動画生成モデル「HunyuanVideo 1.5」を提案する。本モデルは83億パラメータのみで、最先端の視覚的品質とモーションの一貫性を実現し、コンシューマー向けGPUでの効率的な推論を可能とする。この成果は、入念なデータキュレーション、選択的・スライドタイル注意機構(SSTA)を特徴とする先進的なDiTアーキテクチャ、字形を考慮したテキストエンコーディングによる二言語理解の強化、段階的な事前学習と事後学習、効率的な動画超解像ネットワークといった主要コンポーネントに基づいている。これらの設計を活用し、複数の時間長と解像度にわたって高品質なテキスト→動画および画像→動画生成が可能な統一フレームワークを開発した。
大規模な実験により、このコンパクトで高能力なモデルがオープンソース動画生成モデルにおいて新たな最高性能を確立することを実証した。コードとモデル重みを公開することで、動画作成と研究の参入障壁を下げる高性能な基盤をコミュニティに提供し、先進的な動画生成技術をより広範なユーザーに開放する。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5 で公開されている。
English
We present HunyuanVideo 1.5, a lightweight yet powerful open-source video generation model that achieves state-of-the-art visual quality and motion coherence with only 8.3 billion parameters, enabling efficient inference on consumer-grade GPUs. This achievement is built upon several key components, including meticulous data curation, an advanced DiT architecture featuring selective and sliding tile attention (SSTA), enhanced bilingual understanding through glyph-aware text encoding, progressive pre-training and post-training, and an efficient video super-resolution network. Leveraging these designs, we developed a unified framework capable of high-quality text-to-video and image-to-video generation across multiple durations and resolutions.Extensive experiments demonstrate that this compact and proficient model establishes a new state-of-the-art among open-source video generation models. By releasing the code and model weights, we provide the community with a high-performance foundation that lowers the barrier to video creation and research, making advanced video generation accessible to a broader audience. All open-source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.