Representaciones platónicas para el mapeo de la pobreza: ¿Códigos unificados de visión-lenguaje o novedad inducida por agentes?

Resumen

Investigamos si indicadores socioeconómicos como la riqueza del hogar dejan huellas recuperables en imágenes satelitales (que capturan características físicas) y en textos obtenidos de Internet (que reflejan narrativas históricas/económicas). Utilizando datos de las Encuestas Demográficas y de Salud (DHS) de vecindarios africanos, emparejamos imágenes de Landsat con descripciones textuales generadas por modelos de lenguaje (LLM) condicionadas por ubicación/año, y textos recuperados por un agente de búsqueda basado en IA de fuentes web. Desarrollamos un marco multimodal que predice la riqueza del hogar (Índice Internacional de Riqueza) a través de cinco enfoques: (i) un modelo de visión en imágenes satelitales, (ii) un LLM que utiliza solo ubicación/año, (iii) un agente de IA que busca y sintetiza textos web, (iv) un codificador conjunto de imagen-texto, y (v) un ensamblaje de todas las señales. Nuestro marco aporta tres contribuciones. Primero, la fusión de visión y texto de agente/LLM supera a los enfoques basados solo en visión en la predicción de riqueza (por ejemplo, un R-cuadrado de 0.77 frente a 0.63 en divisiones fuera de la muestra), donde el conocimiento interno del LLM resulta más efectivo que el texto recuperado por el agente, mejorando la robustez en generalización fuera del país y del tiempo. Segundo, encontramos una convergencia representacional parcial: los embeddings fusionados de las modalidades de visión y lenguaje se correlacionan moderadamente (similitud coseno mediana de 0.60 después de la alineación), sugiriendo un código latente compartido de bienestar material mientras retienen detalles complementarios, consistente con la Hipótesis de Representación Platónica. Aunque el texto generado solo por el LLM supera a los datos recuperados por el agente, desafiando nuestra Hipótesis de Novedad Inducida por el Agente, las modestas ganancias al combinar datos del agente en algunas divisiones apoyan débilmente la idea de que la información recopilada por el agente introduce estructuras representativas únicas no capturadas completamente por el conocimiento estático del LLM. Tercero, publicamos un conjunto de datos multimodal a gran escala que comprende más de 60,000 clusters de DHS vinculados a imágenes satelitales, descripciones generadas por LLM y textos recuperados por el agente.

English

We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.

Representaciones platónicas para el mapeo de la pobreza: ¿Códigos unificados de visión-lenguaje o novedad inducida por agentes?

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

Resumen

Support