Step-Audio 2 Technischer Bericht
Step-Audio 2 Technical Report
July 22, 2025
papers.authors: Boyong Wu, Chao Yan, Chen Hu, Cheng Yi, Chengli Feng, Fei Tian, Feiyu Shen, Gang Yu, Haoyang Zhang, Jingbei Li, Mingrui Chen, Peng Liu, Wang You, Xiangyu Tony Zhang, Xingyuan Li, Xuerui Yang, Yayue Deng, Yechang Huang, Yuxin Li, Yuxin Zhang, Zhao You, Brian Li, Changyi Wan, Hanpeng Hu, Jiangjie Zhen, Siyu Chen, Song Yuan, Xuelin Zhang, Yimin Jiang, Yu Zhou, Yuxiang Yang, Bingxin Li, Buyun Ma, Changhe Song, Dongqing Pang, Guoqiang Hu, Haiyang Sun, Kang An, Na Wang, Shuli Gao, Wei Ji, Wen Li, Wen Sun, Xuan Wen, Yong Ren, Yuankai Ma, Yufan Lu, Bin Wang, Bo Li, Changxin Miao, Che Liu, Chen Xu, Dapeng Shi, Dingyuan Hu, Donghang Wu, Enle Liu, Guanzhe Huang, Gulin Yan, Han Zhang, Hao Nie, Haonan Jia, Hongyu Zhou, Jianjian Sun, Jiaoren Wu, Jie Wu, Jie Yang, Jin Yang, Junzhe Lin, Kaixiang Li, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingxiao Li, Nan Wu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Siqi Liu, Tiancheng Cao, Wanying Lu, Wenqing He, Wuxun Xie, Xu Zhao, Xueqi Li, Yanbo Yu, Yang Yang, Yi Liu, Yifan Lu, Yilei Wang, Yuanhao Ding, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yumeng Zhan, Yuxiang Zhang, Zidong Yang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
cs.AI
papers.abstract
Dieses Papier stellt Step-Audio~2 vor, ein end-to-end multimodales großes Sprachmodell, das für die industrietaugliche Audioverständnis und Sprachkonversation entwickelt wurde. Durch die Integration eines latenten Audio-Encoders und eines reasoning-zentrierten Reinforcement Learning (RL) erreicht Step-Audio 2 vielversprechende Leistungen in der automatischen Spracherkennung (ASR) und im Audioverständnis. Um eine echte end-to-end Sprachkonversation zu ermöglichen, integriert Step-Audio 2 die Erzeugung diskreter Audio-Tokens in die Sprachmodellierung, wodurch die Reaktionsfähigkeit auf paralinguistische Informationen wie Sprechstile und Emotionen erheblich verbessert wird. Um das reichhaltige textuelle und akustische Wissen in realen Daten effektiv zu nutzen, integriert Step-Audio 2 retrieval-augmentierte Generierung (RAG) und ist in der Lage, externe Werkzeuge wie Websuche zur Reduzierung von Halluzinationen und Audiosuche zur Änderung von Klangfarben aufzurufen. Mit Millionen von Stunden an Sprach- und Audiodaten trainiert, bietet Step-Audio 2 Intelligenz und Ausdruckskraft in verschiedenen Konversationsszenarien. Evaluierungsergebnisse zeigen, dass Step-Audio 2 im Vergleich zu anderen Open-Source- und kommerziellen Lösungen state-of-the-art Leistungen in verschiedenen Audioverständnis- und Konversationsbenchmarks erreicht. Weitere Informationen finden Sie unter https://github.com/stepfun-ai/Step-Audio2.
English
This paper presents Step-Audio~2, an end-to-end multi-modal large language
model designed for industry-strength audio understanding and speech
conversation. By integrating a latent audio encoder and reasoning-centric
reinforcement learning (RL), Step-Audio 2 achieves promising performance in
automatic speech recognition (ASR) and audio understanding. To facilitate
genuine end-to-end speech conversation, Step-Audio 2 incorporates the
generation of discrete audio tokens into language modeling, significantly
enhancing its responsiveness to paralinguistic information such as speaking
styles and emotions. To effectively leverage the rich textual and acoustic
knowledge in real-world data, Step-Audio 2 integrates retrieval-augmented
generation (RAG) and is able to call external tools such as web search to
mitigate hallucination and audio search to switch timbres. Trained on millions
of hours of speech and audio data, Step-Audio 2 delivers intelligence and
expressiveness across diverse conversational scenarios. Evaluation results
demonstrate that Step-Audio 2 achieves state-of-the-art performance on various
audio understanding and conversational benchmarks compared to other open-source
and commercial solutions. Please visit
https://github.com/stepfun-ai/Step-Audio2 for more information.