Platonische Repräsentationen für die Armutskartierung: Vereinheitlichte Vision-Sprache-Codes oder agenteninduzierte Neuartigkeit?

papers.abstract

Wir untersuchen, ob sozioökonomische Indikatoren wie der Haushaltswohlstand erkennbare Spuren in Satellitenbildern (die physische Merkmale erfassen) und in aus dem Internet bezogenen Texten (die historische/wirtschaftliche Narrative widerspiegeln) hinterlassen. Unter Verwendung von Daten aus den Demographic and Health Surveys (DHS) afrikanischer Nachbarschaften kombinieren wir Landsat-Bilder mit LLM-generierten Textbeschreibungen, die auf Standort/Jahr basieren, sowie mit Texten, die von einem KI-Suchagenten aus Webquellen abgerufen wurden. Wir entwickeln ein multimodales Framework zur Vorhersage des Haushaltswohlstands (International Wealth Index) durch fünf Pipelines: (i) ein Vision-Modell für Satellitenbilder, (ii) ein LLM, das nur Standort/Jahr verwendet, (iii) ein KI-Agent, der Webtexte sucht und synthetisiert, (iv) ein gemeinsamer Bild-Text-Encoder, (v) ein Ensemble aller Signale. Unser Framework liefert drei Beiträge. Erstens übertrifft die Fusion von Vision- und Agent/LLM-Texten Vision-only-Baselines bei der Wohlstandsvorhersage (z. B. R-Quadrat von 0,77 vs. 0,63 bei Out-of-Sample-Splits), wobei sich das interne Wissen des LLM als effektiver erweist als die vom Agenten abgerufenen Texte, was die Robustheit bei der Generalisierung über Länder und Zeiträume hinweg verbessert. Zweitens stellen wir eine partielle Repräsentationskonvergenz fest: fusionierte Embeddings aus Vision-/Sprachmodalitäten korrelieren moderat (medianer Kosinus-Ähnlichkeit von 0,60 nach Ausrichtung), was auf einen gemeinsamen latenten Code des materiellen Wohlbefindens hindeutet, während komplementäre Details erhalten bleiben, was mit der Platonischen Repräsentationshypothese übereinstimmt. Obwohl LLM-only-Texte die vom Agenten abgerufenen Daten übertreffen und damit unsere Agent-Induced Novelty Hypothesis in Frage stellen, unterstützen bescheidene Gewinne durch die Kombination von Agentendaten in einigen Splits schwach die Annahme, dass vom Agenten gesammelte Informationen einzigartige Repräsentationsstrukturen einführen, die durch statisches LLM-Wissen nicht vollständig erfasst werden. Drittens veröffentlichen wir einen groß angelegten multimodalen Datensatz, der mehr als 60.000 DHS-Cluster umfasst, die mit Satellitenbildern, LLM-generierten Beschreibungen und vom Agenten abgerufenen Texten verknüpft sind.

English

We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.

Platonische Repräsentationen für die Armutskartierung: Vereinheitlichte Vision-Sprache-Codes oder agenteninduzierte Neuartigkeit?

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

papers.abstract

Support