O Momento Sonar: Avaliação de Modelos de Áudio-Linguagem na Geo-Localização por Áudio
The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
January 6, 2026
Autores: Ruixing Zhang, Zihan Liu, Leilei Sun, Tongyu Zhu, Weifeng Lv
cs.AI
Resumo
A geo-localização visa inferir a origem geográfica de um determinado sinal. Na visão computacional, a geo-localização serviu como um benchmark exigente para o raciocínio composicional e é relevante para a segurança pública. Em contraste, o progresso na geo-localização de áudio tem sido limitado pela escassez de pares áudio-localização de alta qualidade. Para preencher esta lacuna, apresentamos o AGL1K, o primeiro benchmark de geo-localização de áudio para modelos de linguagem de áudio (ALMs), abrangendo 72 países e territórios. Para extrair amostras confiavelmente localizáveis de uma plataforma de origem colaborativa, propomos a métrica de Localizabilidade de Áudio, que quantifica o grau de informatividade de cada gravação, resultando em 1.444 clipes de áudio curados. Avaliações em 16 ALMs mostram que os modelos emergiram com capacidade de geo-localização de áudio. Verificamos que modelos de código fechado superam substancialmente os de código aberto, e que pistas linguísticas frequentemente dominam como suporte para a previsão. Analisamos ainda os traços de raciocínio dos ALMs, o viés regional, as causas de erro e a interpretabilidade da métrica de localizabilidade. No geral, o AGL1K estabelece um benchmark para geo-localização de áudio e pode impulsionar ALMs com melhor capacidade de raciocínio geoespacial.
English
Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.