"Ziet de ingang van het café er toegankelijk uit? Waar is de deur?" Naar Geospatiale AI-agenten voor Visuele Vragen
"Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries
August 21, 2025
Auteurs: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane
cs.AI
Samenvatting
Interactieve digitale kaarten hebben een revolutie teweeggebracht in hoe mensen reizen en leren over de wereld; ze zijn echter afhankelijk van bestaande gestructureerde gegevens in GIS-databases (bijvoorbeeld wegennetwerken, POI-indexen), wat hun vermogen beperkt om geo-visuele vragen te beantwoorden die betrekking hebben op hoe de wereld eruitziet. Wij introduceren onze visie voor Geo-Visuele Agents—multimodale AI-agents die in staat zijn om genuanceerde visueel-ruimtelijke vragen over de wereld te begrijpen en te beantwoorden door grote repositories van georuimtelijke beelden te analyseren, waaronder straatbeelden (bijvoorbeeld Google Street View), plaatsgebonden foto's (bijvoorbeeld TripAdvisor, Yelp) en luchtfoto's (bijvoorbeeld satellietbeelden) in combinatie met traditionele GIS-gegevensbronnen. We definiëren onze visie, beschrijven benaderingen voor waarneming en interactie, geven drie voorbeelden en benoemen belangrijke uitdagingen en kansen voor toekomstig werk.
English
Interactive digital maps have revolutionized how people travel and learn
about the world; however, they rely on pre-existing structured data in GIS
databases (e.g., road networks, POI indices), limiting their ability to address
geo-visual questions related to what the world looks like. We introduce our
vision for Geo-Visual Agents--multimodal AI agents capable of understanding and
responding to nuanced visual-spatial inquiries about the world by analyzing
large-scale repositories of geospatial images, including streetscapes (e.g.,
Google Street View), place-based photos (e.g., TripAdvisor, Yelp), and aerial
imagery (e.g., satellite photos) combined with traditional GIS data sources. We
define our vision, describe sensing and interaction approaches, provide three
exemplars, and enumerate key challenges and opportunities for future work.