Nadie Conoce el Estado del Arte en Modelos Fundacionales Geoespaciales

Resumen

Los modelos fundacionales geoespaciales (GFMs, por sus siglas en inglés) han sido propuestos como arquitecturas base generalizables para la respuesta ante desastres, el mapeo de cobertura terrestre, el monitoreo de la seguridad alimentaria y otras tareas críticas de observación de la Tierra. Sin embargo, el trabajo publicado sobre estos modelos no proporciona a los revisores o usuarios suficiente información para determinar qué modelo se ajusta a una tarea determinada. Sostenemos que nadie sabe cuál es el estado del arte actual en modelos fundacionales geoespaciales. Los métodos pueden ser útiles, pero la literatura sobre GFMs no estandariza suficientemente las evaluaciones, los protocolos de entrenamiento y prueba, los pesos publicados ni los controles de preentrenamiento como para que alguien pueda compararlos o clasificarlos. En una auditoría de 152 artículos, encontramos 46 discrepancias entre trabajos de al menos 10 puntos para el mismo modelo, punto de referencia y protocolo; 94 de 126 artículos con datos de preentrenamiento extraíbles utilizan una configuración que ningún otro artículo emplea; y el 39% de los artículos sobre GFMs no publica ningún peso del modelo. Esta falta de estándares comunitarios tiene solución. Proponemos seis expectativas concretas: publicación de pesos con licencia específica, evaluaciones centrales compartidas, anotaciones de referencia copiadas versus reejecutadas, reporte de varianza, un marco de evaluación unificado, y controles de datos versus arquitectura versus algoritmo. Estas brechas representan un fallo de coordinación, no una falla de ningún laboratorio en particular; los autores de este artículo, como muchos otros en la comunidad de GFMs, han contribuido a ellas. En lugar de solo criticar a la comunidad, nuestro objetivo es proporcionar pasos concretos hacia una comprensión compartida de cómo innovar en GFMs.

English

Geospatial foundation models (GFMs) have been proposed as generalizable backbones for disaster response, land-cover mapping, food-security monitoring, and other high-stakes Earth-observation tasks. Yet the published work about these models does not give reviewers or users enough information to tell which model fits a given task. We argue that nobody knows what the current state of the art is in geospatial foundation models. The methods may be useful, but the GFM literature does not standardize evaluations, training and testing protocols, released weights, or pretraining controls well enough for anyone to compare or rank them. In a 152-paper audit, we find 46 cross-paper disagreements of at least 10 points for the same model, benchmark, and protocol; 94/126 papers with extractable pretraining data use a configuration no other paper uses; and 39% of GFM papers release no model weights. This lack of community standards can be solved. We propose six concrete expectations: named-license weight release, shared core evaluations, copied-versus-rerun baseline annotations, variance reporting, one shared evaluation harness, and data-vs-architecture-vs-algorithm controls. These gaps are a coordination failure, not a fault of any individual lab; the authors of this paper, like many others in the GFM community, have contributed to them. Rather than just critiquing the community, we aim to provide concrete steps toward a shared understanding of how to innovate GFMs.