Rappresentazioni Platoniche per la Mappatura della Povertà: Codici Unificati Visione-Linguaggio o Novità Indotta dagli Agenti?

Abstract

Indaghiamo se indicatori socio-economici come la ricchezza familiare lascino tracce recuperabili nelle immagini satellitari (che catturano caratteristiche fisiche) e nei testi provenienti da Internet (che riflettono narrazioni storiche/economiche). Utilizzando i dati del Demographic and Health Survey (DHS) provenienti da quartieri africani, associamo immagini Landsat a descrizioni testuali generate da LLM condizionate su località/anno e testi recuperati da un agente di ricerca AI da fonti web. Sviluppiamo un framework multimodale che predice la ricchezza familiare (International Wealth Index) attraverso cinque pipeline: (i) modello di visione sulle immagini satellitari, (ii) LLM che utilizza solo località/anno, (iii) agente AI che cerca/sintetizza testi web, (iv) codificatore congiunto immagine-testo, (v) ensemble di tutti i segnali. Il nostro framework produce tre contributi. Primo, la fusione di visione e testo da agente/LLM supera i baseline basati solo sulla visione nella previsione della ricchezza (ad esempio, R-quadro di 0.77 vs. 0.63 su divisioni out-of-sample), con la conoscenza interna dell'LLM che si dimostra più efficace rispetto ai testi recuperati dall'agente, migliorando la robustezza nella generalizzazione out-of-country e out-of-time. Secondo, troviamo una convergenza rappresentativa parziale: gli embedding fusi dalle modalità visione/linguaggio correlano moderatamente (similarità coseno mediana di 0.60 dopo l'allineamento), suggerendo un codice latente condiviso di benessere materiale pur mantenendo dettagli complementari, in linea con l'Ipotesi della Rappresentazione Platonica. Sebbene i testi generati solo da LLM superino i dati recuperati dall'agente, sfidando la nostra Ipotesi della Novità Indotta dall'Agente, modesti guadagni dalla combinazione dei dati dell'agente in alcune divisioni supportano debolmente l'idea che le informazioni raccolte dall'agente introducano strutture rappresentative uniche non completamente catturate dalla conoscenza statica dell'LLM. Terzo, rilasciamo un dataset multimodale su larga scala che comprende più di 60.000 cluster DHS collegati a immagini satellitari, descrizioni generate da LLM e testi recuperati dall'agente.

English

We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.

Rappresentazioni Platoniche per la Mappatura della Povertà: Codici Unificati Visione-Linguaggio o Novità Indotta dagli Agenti?

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

Abstract

Support