오디오 플라밍고 넥스트: 음성, 사운드, 음악을 위한 차세대 오픈 오디오-언어 모델
Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
April 13, 2026
저자: Sreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping
cs.AI
초록
Audio Flamingo Next(AF-Next)를 소개합니다. AF-Next는 Audio Flamingo 시리즈의 차세대이자 가장 강력한 대규모 오디오-언어 모델로, 음성, 환경 음향, 음악에 대한 이해와 추론 능력을 발전시키도록 설계되었습니다. Audio Flamingo 3 대비 AF-Next는 다음과 같은 혁신을 도입합니다: (i) 다양한 오디오 이해 작업에서 정확도를 크게 향상시키는 더 강력한 기초 오디오-언어 모델; (ii) 기존 학술 벤치마크를 넘어선 대규모 오디오 이해 및 추론 데이터 구축을 위한 확장 가능한 전략; (iii) 최대 30분 길이의 길고 복잡한 오디오 입력 지원; (iv) 중간 추론 단계를 긴 오디오의 타임스탬프에 명시적으로 연결하여 세밀한 시간 정렬과 향상된 해석 가능성을 제공하는 새로운 추론 패러다임인 Temporal Audio Chain-of-Thought. 이러한 능력을 구현하기 위해, 우리는 먼저 Audio Flamingo 3의 체계적인 분석을 통해 오디오 이해 및 추론의 핵심 격차를 규명했습니다. 그런 다음 이러한 한계를 해결하고 기존 AudioSkills-XL, LongAudio-XL, AF-Think, AF-Chat 데이터셋을 확장하기 위해 총 100만 시간 이상의 새로운 대규모 데이터셋을 정제 및 확장했습니다. AF-Next는 사전 학습, 중간 학습, 사후 학습 단계에 걸친 교과 과정 기반 전략으로 훈련되었습니다. 까다로운 장시간 오디오 작업을 포함한 20개의 오디오 이해 및 추론 벤치마크에서 진행된 폭넓은 실험 결과, AF-Next는 유사한 규모의 오픈 모델을 큰 차이로 능가하며, 훨씬 더 큰 오픈 웨이트 및 클로즈드 모델과도 매우 경쟁력 있는 성능을 보여주거나 경우에 따라 이를 능가하기도 했습니다. 벤치마크 성능을 넘어 AF-Next는 강력한 실세계 유용성을 나타내며 보지 못한 작업에 잘 전이되어, 그 견고성과 일반화 능력을 부각시킵니다. 모든 데이터, 코드 및 방법론과 더불어, 우리는 AF-Next-Instruct, AF-Next-Think, AF-Next-Captioner를 포함한 AF-Next의 3가지 변형 모델을 오픈소스로 공개합니다.
English
We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.