ソナーモーメント:音響言語モデルの音響地理的位置推定におけるベンチマーク
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
January 6, 2026
著者: Ruixing Zhang, Zihan Liu, Leilei Sun, Tongyu Zhu, Weifeng Lv
cs.AI
要旨
地理的位置推定(Geo-localization)は、与えられた信号の地理的起源を推測することを目的とする。コンピュータビジョン分野では、地理的位置推定は合成的推論に対する要求の厳しいベンチマークとして機能し、公共の安全にも関連している。一方、オーディオ地理的位置推定の進展は、高品質な音声と位置のペアデータの不足によって制約を受けてきた。この格差を埋めるため、我々は72の国と地域にわたる、音声言語モデル(ALM)向け初のオーディオ地理的位置推定ベンチマーク「AGL1K」を提案する。クラウドソーシングプラットフォームから確実に位置推定可能なサンプルを抽出するため、各録音の情報量を定量化する「音声位置推定可能性(Audio Localizability)」指標を考案し、1,444の精選されたオーディオクリップを構築した。16のALMによる評価により、ALMがオーディオ地理的位置推定能力を獲得しつつあることが明らかになった。クローズドソースモデルがオープンソースモデルを大幅に上回り、言語的手がかりが予測のための足場として支配的になることが多いと判明した。さらに、ALMの推論過程、地域バイアス、誤り要因、および位置推定可能性指標の解釈可能性を分析する。総じて、AGL1Kはオーディオ地理的位置推定のベンチマークを確立し、より優れた地理空間推論能力を持つALMの発展を促進する可能性がある。
English
Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.