ChatPaper.aiChatPaper

소나 모멘트: 오디오-언어 모델의 오디오 지리적 위치 인식 성능 벤치마킹

The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization

January 6, 2026
저자: Ruixing Zhang, Zihan Liu, Leilei Sun, Tongyu Zhu, Weifeng Lv
cs.AI

초록

지역화는 주어진 신호의 지리적 출처를 추론하는 것을 목표로 합니다. 컴퓨터 비전에서 지역화는 구성적 추론을 위한 까다로운 벤치마크로 기능하며 공공 안전과 관련이 있습니다. 이와 대조적으로 오디오 지역화의 발전은 고품질 오디오-위치 쌍의 부족으로 제약을 받아왔습니다. 이러한 격차를 해결하기 위해 우리는 72개 국가 및 지역을 포괄하는, 오디오 언어 모델(ALM)을 위한 최초의 오디오 지역화 벤치마크인 AGL1K를 소개합니다. 크라우드소싱 플랫폼에서 신뢰할 수 있게 지역화 가능한 샘플을 추출하기 위해 각 녹음의 정보성을 정량화하는 오디오 지역화 가능성 지표를 제안하며, 이를 통해 1,444개의 정제된 오디오 클립을 확보했습니다. 16개 ALM에 대한 평가 결과, ALM이 오디오 지역화 능력을 갖추기 시작했음을 확인했습니다. 우리는 공개되지 않은 모델이 오픈소스 모델을 크게 앞서는 것과 언어적 단서가 예측을 위한 비계로서 종종 지배적임을 발견했습니다. 또한 ALM의 추론 흔적, 지역적 편향, 오류 원인, 그리고 지역화 가능성 지표의 해석 가능성을 분석합니다. 전반적으로 AGL1K는 오디오 지역화를 위한 벤치마크를 확립하고 더 나은 지리 공간 추론 능력을 가진 ALM의 발전을 촉진할 수 있습니다.
English
Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.
PDF11January 8, 2026