SpotSound: Verbesserung großer Audio-Sprach-Modelle durch feingranulare zeitliche Verankerung

Zusammenfassung

Große Audio-Sprach-Modelle (ALMs) haben kürzlich bemerkenswerte Fähigkeiten im holistischen Audioverständnis demonstriert, erweisen sich jedoch nach wie vor als unzuverlässig für temporale Verankerung, d.h. die Aufgabe, genau zu bestimmen, wann ein Ereignis innerhalb eines langen Audiosignals auftritt. Diese Einschränkung rührt von zwei Faktoren her: Trainingsdaten, die von Clip-weiser Aufsicht ohne präzize Zeitstempel dominiert werden, und Benchmarks, die keine realen Szenarien nachbilden, in denen kurze Ereignisse durch dichte Hintergrundgeräusche verdeckt werden. In diesem Beitrag stellen wir SpotSound vor, ein Audio-Sprach-Modell, das für die Verankerung von Audio-Ereignissen entwickelt wurde. SpotSound integriert ein neuartiges Trainingsziel, das speziell dazu entwickelt wurde, halluzinierte Zeitstempel für Ereignisse, die in der Eingabe nicht vorhanden sind, zu unterdrücken. Zusätzlich präsentieren wir SpotSound-Bench, einen anspruchsvollen Benchmark für temporale Verankerung, bei dem Zielereignisse weniger als ~10 % jedes Clips einnehmen, was eine rigorose „Nadel-im-Heuhaufen“-Evaluation schafft. Experimente zeigen, dass SpotSound state-of-the-art Ergebnisse auf Benchmarks für temporale Verankerung erzielt und gleichzeitig eine robuste Performance über verschiedene allgemeine nachgelagerte Audio-Sprach-Aufgaben hinweg beibehält. Code, Modelle und Benchmark sind auf https://loiesun.github.io/spotsound/ veröffentlicht.

English

Large Audio-Language Models (ALMs) have recently demonstrated remarkable capabilities in holistic audio understanding, yet they remain unreliable for temporal grounding, i.e., the task of pinpointing exactly when an event occurs within long-form audio. This limitation stems from two factors: training data dominated by clip-level supervision lacking precise timestamps, and benchmarks that fail to simulate real-world scenarios where short events are obscured by dense background sounds. In this paper, we introduce SpotSound, an audio language model designed for grounding audio events. SpotSound incorporates a novel training objective, specifically designed to suppress hallucinated timestamps for events absent from the input. Additionally, we present SpotSound-Bench, a challenging temporal grounding benchmark where target events occupy less than ~10\% of each clip, creating a rigorous `needle-in-a-haystack' evaluation. Experiments demonstrate that SpotSound achieves state-of-the-art results on temporal grounding benchmarks while maintaining robust performance across general downstream audio-language tasks. Code, models and benchmark are released on https://loiesun.github.io/spotsound/

SpotSound: Verbesserung großer Audio-Sprach-Modelle durch feingranulare zeitliche Verankerung

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Zusammenfassung

Support