Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Zusammenfassung

Wir stellen Audio Flamingo Next (AF-Next) vor, das leistungsfähigste Large Audio-Language Model der nächsten Generation in der Audio-Flamingo-Reihe, das entwickelt wurde, um das Verständnis und die Reasoning-Fähigkeiten für Sprache, Umgebungsgeräusche und Musik weiter voranzutreiben. Im Vergleich zu Audio Flamingo 3 führt AF-Next folgende Neuerungen ein: (i) ein stärkeres grundlegendes Audio-Sprach-Modell, das die Genauigkeit bei verschiedenen Audio-Verständnisaufgaben erheblich verbessert; (ii) skalierbare Strategien zur Erstellung großvolumiger Audio-Verständnis- und Reasoning-Daten, die über bestehende akademische Benchmarks hinausgehen; (iii) Unterstützung für lange und komplexe Audioeingaben von bis zu 30 Minuten; und (iv) Temporal Audio Chain-of-Thought, ein neues Reasoning-Paradigma, das Zwischenschritte der Schlussfolgerung explizit an Zeitstempel in langen Audiodateien bindet und so eine feingranulare temporale Ausrichtung sowie verbesserte Interpretierbarkeit ermöglicht. Um diese Fähigkeiten zu ermöglichen, führten wir zunächst eine systematische Analyse von Audio Flamingo 3 durch, um wesentliche Lücken im Audio-Verständnis und Reasoning zu identifizieren. Anschließend kuratierten und skalieren wir neue, großvolumige Datensätze mit insgesamt über 1 Million Stunden, um diese Einschränkungen zu adressieren und die bestehenden Datensätze AudioSkills-XL, LongAudio-XL, AF-Think und AF-Chat zu erweitern. AF-Next wird mittels einer curriculumbasierten Strategie trainiert, die Vorverarbeitungs-, Haupttrainings- und Nachverarbeitungsphasen umspannt. Umfangreiche Experimente über 20 Audio-Verständnis- und Reasoning-Benchmarks hinweg, einschließlich anspruchsvoller Langaudio-Aufgaben, zeigen, dass AF-Next Open-Source-Modelle ähnlicher Größe mit großem Abstand übertrifft und mit deutlich größeren Open-Weight- und Closed-Modellen hochkonkurrenzfähig bleibt bzw. diese teilweise übertrifft. Über die Benchmark-Leistung hinaus zeigt AF-Next eine starke praktische Tauglichkeit und überträgt sich gut auf unbekannte Aufgaben, was seine Robustheit und Generalisierungsfähigkeit unterstreicht. Zusätzlich zu allen Daten, Code und Methoden quelloffenen wir 3 Varianten von AF-Next, darunter AF-Next-Instruct, AF-Next-Think und AF-Next-Captioner.

English

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.