Audio Flamingo 3: Развитие аудиоинтеллекта с полностью открытыми крупномасштабными языковыми моделями для аудио
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models
July 10, 2025
Авторы: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro
cs.AI
Аннотация
Мы представляем Audio Flamingo 3 (AF3), полностью открытую передовую (SOTA) крупную аудио-языковую модель, которая продвигает возможности рассуждения и понимания в областях речи, звука и музыки. AF3 включает: (i) AF-Whisper, унифицированный аудио-кодировщик, обученный с использованием новой стратегии для совместного обучения представлений всех трех модальностей — речи, звука и музыки; (ii) гибкое, по запросу мышление, позволяющее модели выполнять цепочку рассуждений перед ответом; (iii) многоходовой, многоаудио чат; (iv) понимание и рассуждение на основе длинных аудио (включая речь) продолжительностью до 10 минут; и (v) голосовое взаимодействие. Для реализации этих возможностей мы предлагаем несколько крупномасштабных обучающих наборов данных, созданных с использованием новых стратегий, включая AudioSkills-XL, LongAudio-XL, AF-Think и AF-Chat, и обучаем AF3 с помощью новой пятиэтапной стратегии обучения на основе учебного плана. Обучаясь исключительно на открытых аудио-данных, AF3 достигает новых SOTA результатов на более чем 20+ тестах на понимание и рассуждение на основе (длинных) аудио, превосходя как модели с открытыми весами, так и закрытые модели, обученные на значительно больших наборах данных.
English
We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large
audio-language model that advances reasoning and understanding across speech,
sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder
trained using a novel strategy for joint representation learning across all 3
modalities of speech, sound, and music; (ii) flexible, on-demand thinking,
allowing the model to do chain-of-thought-type reasoning before answering;
(iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning
(including speech) up to 10 minutes; and (v) voice-to-voice interaction. To
enable these capabilities, we propose several large-scale training datasets
curated using novel strategies, including AudioSkills-XL, LongAudio-XL,
AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based
training strategy. Trained on only open-source audio data, AF3 achieves new
SOTA results on over 20+ (long) audio understanding and reasoning benchmarks,
surpassing both open-weight and closed-source models trained on much larger
datasets.