Audio Flamingo Next: Next-Generation Open Audiotalige Modellen voor Spraak, Geluid en Muziek

Samenvatting

Wij presenteren Audio Flamingo Next (AF-Next), de volgende generatie en meest capabele grote audio-taalmodellen in de Audio Flamingo-reeks, ontworpen om het begrip en redeneren over spraak, omgevingsgeluiden en muziek naar een hoger niveau te tillen. In vergelijking met Audio Flamingo 3 introduceert AF-Next: (i) een krachtiger fundamenteel audio-taalmodel dat de nauwkeurigheid bij diverse audio-begriptaken aanzienlijk verbetert; (ii) schaalbare strategieën voor het construeren van grootschalige gegevens voor audio-begrip en -redenering die verder gaan dan bestaande academische benchmarks; (iii) ondersteuning voor lange en complexe audio-inputs tot 30 minuten; en (iv) Temporal Audio Chain-of-Thought, een nieuw redeneerparadigma dat tussenliggende redeneerstappen expliciet verankert aan tijdstempels in lange audio, waardoor fijnmazige temporele uitlijning en verbeterde interpreteerbaarheid mogelijk wordt. Om deze capaciteiten mogelijk te maken, voeren we eerst een systematische analyse van Audio Flamingo 3 uit om belangrijke hiaten in audio-begrip en -redenering te identificeren. Vervolgens stellen we nieuwe grootschalige datasets samen en schalen we deze op, met een totale omvang van meer dan 1 miljoen uur, om deze beperkingen aan te pakken en de bestaande AudioSkills-XL, LongAudio-XL, AF-Think en AF-Chat datasets uit te breiden. AF-Next wordt getraind met een op curriculum gebaseerde strategie die voor-, midden- en natrainingsfasen omvat. Uitgebreide experimenten over 20 benchmarks voor audio-begrip en -redenering, inclusief uitdagende lang-audiotaken, tonen aan dat AF-Next open modellen van vergelijkbare grootte met grote marges overtreft en zeer competitief blijft met, en soms zelfs overstijgt, veel grotere open-weight en gesloten modellen. Naast benchmarkprestaties vertoont AF-Next een sterke praktische bruikbaarheid en transferleert het goed naar onzichtbare taken, wat de robuustheid en generalisatievermogen benadrukt. Naast alle gegevens, code en methoden, open-sourcen we 3 varianten van AF-Next, waaronder AF-Next-Instruct, AF-Next-Think en AF-Next-Captioner.

English

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.

Audio Flamingo Next: Next-Generation Open Audiotalige Modellen voor Spraak, Geluid en Muziek

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Samenvatting

Support