ChatPaper.aiChatPaper

"O acesso à entrada do café parece acessível? Onde fica a porta?" Rumo a Agentes de IA Geográfica para Consultas Visuais

"Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

August 21, 2025
Autores: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane
cs.AI

Resumo

Mapas digitais interativos revolucionaram a forma como as pessoas viajam e aprendem sobre o mundo; no entanto, eles dependem de dados estruturados pré-existentes em bancos de dados de SIG (por exemplo, redes de estradas, índices de POI), limitando sua capacidade de abordar questões geo-visuais relacionadas à aparência do mundo. Apresentamos nossa visão para Agentes Geo-Visuais—agentes de IA multimodal capazes de compreender e responder a consultas visuo-espaciais detalhadas sobre o mundo, analisando grandes repositórios de imagens geoespaciais, incluindo paisagens urbanas (por exemplo, Google Street View), fotos baseadas em locais (por exemplo, TripAdvisor, Yelp) e imagens aéreas (por exemplo, fotos de satélite), combinadas com fontes tradicionais de dados de SIG. Definimos nossa visão, descrevemos abordagens de sensoriamento e interação, fornecemos três exemplos e enumeramos os principais desafios e oportunidades para trabalhos futuros.
English
Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial images, including streetscapes (e.g., Google Street View), place-based photos (e.g., TripAdvisor, Yelp), and aerial imagery (e.g., satellite photos) combined with traditional GIS data sources. We define our vision, describe sensing and interaction approaches, provide three exemplars, and enumerate key challenges and opportunities for future work.
PDF72August 22, 2025