Il momento Sonar: Benchmarking dei modelli audio-linguistici nella geo-localizzazione audio
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
January 6, 2026
Autori: Ruixing Zhang, Zihan Liu, Leilei Sun, Tongyu Zhu, Weifeng Lv
cs.AI
Abstract
La geo-localizzazione mira a dedurre l'origine geografica di un dato segnale. In computer vision, la geo-localizzazione è servita come benchmark impegnativo per il ragionamento composizionale ed è rilevante per la sicurezza pubblica. Al contrario, i progressi nella geo-localizzazione audio sono stati limitati dalla mancanza di coppie audio-posizione di alta qualità. Per colmare questa lacuna, introduciamo AGL1K, il primo benchmark di geo-localizzazione audio per modelli linguistici audio (ALM), che copre 72 paesi e territori. Per estrarre campioni affidabilmente localizzabili da una piattaforma crowdsourced, proponiamo la metrica di Localizzabilità Audio che quantifica il contenuto informativo di ogni registrazione, producendo 1.444 clip audio curate. Le valutazioni su 16 ALM mostrano che gli ALM hanno sviluppato capacità di geo-localizzazione audio. Rileviamo che i modelli closed-source superano sostanzialmente quelli open-source e che gli indizi linguistici spesso dominano come impalcatura per la previsione. Analizziamo inoltre le tracce di ragionamento degli ALM, il bias regionale, le cause di errore e l'interpretabilità della metrica di localizzabilità. Nel complesso, AGL1K stabilisce un punto di riferimento per la geo-localizzazione audio e potrebbe far progredire gli ALM con una migliore capacità di ragionamento geospaziale.
English
Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.