Platonische Repräsentationen für die Armutskartierung: Vereinheitlichte Vision-Sprache-Codes oder agenteninduzierte Neuartigkeit?
Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
August 1, 2025
papers.authors: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI
papers.abstract
Wir untersuchen, ob sozioökonomische Indikatoren wie der Haushaltswohlstand erkennbare Spuren in Satellitenbildern (die physische Merkmale erfassen) und in aus dem Internet bezogenen Texten (die historische/wirtschaftliche Narrative widerspiegeln) hinterlassen. Unter Verwendung von Daten aus den Demographic and Health Surveys (DHS) afrikanischer Nachbarschaften kombinieren wir Landsat-Bilder mit LLM-generierten Textbeschreibungen, die auf Standort/Jahr basieren, sowie mit Texten, die von einem KI-Suchagenten aus Webquellen abgerufen wurden. Wir entwickeln ein multimodales Framework zur Vorhersage des Haushaltswohlstands (International Wealth Index) durch fünf Pipelines: (i) ein Vision-Modell für Satellitenbilder, (ii) ein LLM, das nur Standort/Jahr verwendet, (iii) ein KI-Agent, der Webtexte sucht und synthetisiert, (iv) ein gemeinsamer Bild-Text-Encoder, (v) ein Ensemble aller Signale. Unser Framework liefert drei Beiträge. Erstens übertrifft die Fusion von Vision- und Agent/LLM-Texten Vision-only-Baselines bei der Wohlstandsvorhersage (z. B. R-Quadrat von 0,77 vs. 0,63 bei Out-of-Sample-Splits), wobei sich das interne Wissen des LLM als effektiver erweist als die vom Agenten abgerufenen Texte, was die Robustheit bei der Generalisierung über Länder und Zeiträume hinweg verbessert. Zweitens stellen wir eine partielle Repräsentationskonvergenz fest: fusionierte Embeddings aus Vision-/Sprachmodalitäten korrelieren moderat (medianer Kosinus-Ähnlichkeit von 0,60 nach Ausrichtung), was auf einen gemeinsamen latenten Code des materiellen Wohlbefindens hindeutet, während komplementäre Details erhalten bleiben, was mit der Platonischen Repräsentationshypothese übereinstimmt. Obwohl LLM-only-Texte die vom Agenten abgerufenen Daten übertreffen und damit unsere Agent-Induced Novelty Hypothesis in Frage stellen, unterstützen bescheidene Gewinne durch die Kombination von Agentendaten in einigen Splits schwach die Annahme, dass vom Agenten gesammelte Informationen einzigartige Repräsentationsstrukturen einführen, die durch statisches LLM-Wissen nicht vollständig erfasst werden. Drittens veröffentlichen wir einen groß angelegten multimodalen Datensatz, der mehr als 60.000 DHS-Cluster umfasst, die mit Satellitenbildern, LLM-generierten Beschreibungen und vom Agenten abgerufenen Texten verknüpft sind.
English
We investigate whether socio-economic indicators like household wealth leave
recoverable imprints in satellite imagery (capturing physical features) and
Internet-sourced text (reflecting historical/economic narratives). Using
Demographic and Health Survey (DHS) data from African neighborhoods, we pair
Landsat images with LLM-generated textual descriptions conditioned on
location/year and text retrieved by an AI search agent from web sources. We
develop a multimodal framework predicting household wealth (International
Wealth Index) through five pipelines: (i) vision model on satellite images,
(ii) LLM using only location/year, (iii) AI agent searching/synthesizing web
text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework
yields three contributions. First, fusing vision and agent/LLM text outperforms
vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on
out-of-sample splits), with LLM-internal knowledge proving more effective than
agent-retrieved text, improving robustness to out-of-country and out-of-time
generalization. Second, we find partial representational convergence: fused
embeddings from vision/language modalities correlate moderately (median cosine
similarity of 0.60 after alignment), suggesting a shared latent code of
material well-being while retaining complementary details, consistent with the
Platonic Representation Hypothesis. Although LLM-only text outperforms
agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest
gains from combining agent data in some splits weakly support the notion that
agent-gathered information introduces unique representational structures not
fully captured by static LLM knowledge. Third, we release a large-scale
multimodal dataset comprising more than 60,000 DHS clusters linked to satellite
images, LLM-generated descriptions, and agent-retrieved texts.