Le moment Sonar : Évaluation des modèles audio-linguistiques pour la géolocalisation sonore
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
January 6, 2026
papers.authors: Ruixing Zhang, Zihan Liu, Leilei Sun, Tongyu Zhu, Weifeng Lv
cs.AI
papers.abstract
La géolocalisation vise à déterminer l'origine géographique d'un signal donné. En vision par ordinateur, la géolocalisation a servi de référence exigeante pour le raisonnement compositionnel et présente un intérêt pour la sécurité publique. En revanche, les progrès en géolocalisation audio ont été limités par le manque de paires audio-localisation de haute qualité. Pour combler cette lacune, nous présentons AGL1K, le premier benchmark de géolocalisation audio pour les modèles de langage audio (ALM), couvrant 72 pays et territoires. Pour extraire des échantillons fiables d'une plateforme participative, nous proposons la métrique de Localisabilité Audio qui quantifie le caractère informatif de chaque enregistrement, produisant 1 444 clips audio sélectionnés. Les évaluations sur 16 ALM montrent que ces modèles ont développé une capacité de géolocalisation audio. Nous constatons que les modèles propriétaires surpassent largement les modèles open-source, et que les indices linguistiques servent souvent de support principal pour les prédictions. Nous analysons également les traces de raisonnement des ALM, les biais régionaux, les causes d'erreur et l'interprétabilité de la métrique de localisabilité. Globalement, AGL1K établit une référence pour la géolocalisation audio et pourrait faire progresser les ALM vers une meilleure capacité de raisonnement géospatial.
English
Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.