ChatPaper.aiChatPaper

Audio Flamingo Next: Modelos de Audio-Lenguaje de Próxima Generación para Voz, Sonido y Música

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

April 13, 2026
Autores: Sreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping
cs.AI

Resumen

Presentamos Audio Flamingo Next (AF-Next), la siguiente generación y el modelo de audio-lenguaje más capaz de la serie Audio Flamingo, diseñado para avanzar en la comprensión y el razonamiento sobre el habla, los sonidos ambientales y la música. En comparación con Audio Flamingo 3, AF-Next introduce: (i) un modelo base de audio-lenguaje más potente que mejora significativamente la precisión en diversas tareas de comprensión auditiva; (ii) estrategias escalables para construir datos a gran escala de comprensión y razonamiento auditivo que superan los puntos de referencia académicos existentes; (iii) soporte para entradas de audio largas y complejas de hasta 30 minutos; y (iv) Temporal Audio Chain-of-Thought (Cadena de Pensamiento Auditiva Temporal), un nuevo paradigma de razonamiento que ancla explícitamente los pasos de razonamiento intermedios a marcas de tiempo en audio largo, permitiendo una alineación temporal de grano fino y una mejor interpretabilidad. Para habilitar estas capacidades, primero realizamos un análisis sistemático de Audio Flamingo 3 para identificar las brechas clave en la comprensión y el razonamiento auditivos. Luego, seleccionamos y ampliamos nuevos conjuntos de datos a gran escala que totalizan más de 1 millón de horas para abordar estas limitaciones y expandir los conjuntos de datos existentes AudioSkills-XL, LongAudio-XL, AF-Think y AF-Chat. AF-Next se entrena utilizando una estrategia curricular que abarca etapas de pre-entrenamiento, entrenamiento intermedio y post-entrenamiento. Experimentos exhaustivos en 20 benchmarks de comprensión y razonamiento auditivo, incluidas tareas desafiantes de audio largo, muestran que AF-Next supera a modelos abiertos de tamaño similar por amplios márgenes y se mantiene altamente competitivo, superando a veces, a modelos mucho más grandes, tanto de pesos abiertos como cerrados. Más allá del rendimiento en los benchmarks, AF-Next exhibe una fuerte utilidad en el mundo real y se transfiere bien a tareas no vistas, lo que destaca su robustez y capacidad de generalización. Además de todos los datos, código y métodos, liberamos como código abierto 3 variantes de AF-Next, incluyendo AF-Next-Instruct, AF-Next-Think y AF-Next-Captioner.
English
We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.
PDF171April 15, 2026