Representaciones platónicas para el mapeo de la pobreza: ¿Códigos unificados de visión-lenguaje o novedad inducida por agentes?
Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
August 1, 2025
Autores: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI
Resumen
Investigamos si indicadores socioeconómicos como la riqueza del hogar dejan huellas recuperables en imágenes satelitales (que capturan características físicas) y en textos obtenidos de Internet (que reflejan narrativas históricas/económicas). Utilizando datos de las Encuestas Demográficas y de Salud (DHS) de vecindarios africanos, emparejamos imágenes de Landsat con descripciones textuales generadas por modelos de lenguaje (LLM) condicionadas por ubicación/año, y textos recuperados por un agente de búsqueda basado en IA de fuentes web. Desarrollamos un marco multimodal que predice la riqueza del hogar (Índice Internacional de Riqueza) a través de cinco enfoques: (i) un modelo de visión en imágenes satelitales, (ii) un LLM que utiliza solo ubicación/año, (iii) un agente de IA que busca y sintetiza textos web, (iv) un codificador conjunto de imagen-texto, y (v) un ensamblaje de todas las señales. Nuestro marco aporta tres contribuciones. Primero, la fusión de visión y texto de agente/LLM supera a los enfoques basados solo en visión en la predicción de riqueza (por ejemplo, un R-cuadrado de 0.77 frente a 0.63 en divisiones fuera de la muestra), donde el conocimiento interno del LLM resulta más efectivo que el texto recuperado por el agente, mejorando la robustez en generalización fuera del país y del tiempo. Segundo, encontramos una convergencia representacional parcial: los embeddings fusionados de las modalidades de visión y lenguaje se correlacionan moderadamente (similitud coseno mediana de 0.60 después de la alineación), sugiriendo un código latente compartido de bienestar material mientras retienen detalles complementarios, consistente con la Hipótesis de Representación Platónica. Aunque el texto generado solo por el LLM supera a los datos recuperados por el agente, desafiando nuestra Hipótesis de Novedad Inducida por el Agente, las modestas ganancias al combinar datos del agente en algunas divisiones apoyan débilmente la idea de que la información recopilada por el agente introduce estructuras representativas únicas no capturadas completamente por el conocimiento estático del LLM. Tercero, publicamos un conjunto de datos multimodal a gran escala que comprende más de 60,000 clusters de DHS vinculados a imágenes satelitales, descripciones generadas por LLM y textos recuperados por el agente.
English
We investigate whether socio-economic indicators like household wealth leave
recoverable imprints in satellite imagery (capturing physical features) and
Internet-sourced text (reflecting historical/economic narratives). Using
Demographic and Health Survey (DHS) data from African neighborhoods, we pair
Landsat images with LLM-generated textual descriptions conditioned on
location/year and text retrieved by an AI search agent from web sources. We
develop a multimodal framework predicting household wealth (International
Wealth Index) through five pipelines: (i) vision model on satellite images,
(ii) LLM using only location/year, (iii) AI agent searching/synthesizing web
text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework
yields three contributions. First, fusing vision and agent/LLM text outperforms
vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on
out-of-sample splits), with LLM-internal knowledge proving more effective than
agent-retrieved text, improving robustness to out-of-country and out-of-time
generalization. Second, we find partial representational convergence: fused
embeddings from vision/language modalities correlate moderately (median cosine
similarity of 0.60 after alignment), suggesting a shared latent code of
material well-being while retaining complementary details, consistent with the
Platonic Representation Hypothesis. Although LLM-only text outperforms
agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest
gains from combining agent data in some splits weakly support the notion that
agent-gathered information introduces unique representational structures not
fully captured by static LLM knowledge. Third, we release a large-scale
multimodal dataset comprising more than 60,000 DHS clusters linked to satellite
images, LLM-generated descriptions, and agent-retrieved texts.