Représentations platoniciennes pour la cartographie de la pauvreté : Codes unifiés vision-langage ou nouveauté induite par les agents ?
Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
August 1, 2025
papers.authors: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI
papers.abstract
Nous examinons si des indicateurs socio-économiques tels que la richesse des ménages laissent des empreintes récupérables dans les images satellitaires (capturant des caractéristiques physiques) et dans les textes issus d'Internet (reflétant des récits historiques/économiques). En utilisant les données des Enquêtes Démographiques et de Santé (DHS) provenant de quartiers africains, nous associons des images Landsat à des descriptions textuelles générées par un modèle de langage (LLM) conditionnées par la localisation/l'année, ainsi qu'à des textes récupérés par un agent de recherche basé sur l'IA à partir de sources web. Nous développons un cadre multimodal pour prédire la richesse des ménages (Indice International de Richesse) à travers cinq pipelines : (i) un modèle de vision sur les images satellitaires, (ii) un LLM utilisant uniquement la localisation/l'année, (iii) un agent IA recherchant/synthétisant des textes web, (iv) un encodeur conjoint image-texte, (v) un ensemble de tous les signaux. Notre cadre apporte trois contributions principales. Premièrement, la fusion des données de vision et des textes issus de l'agent/LLM surpasse les modèles de vision seule dans la prédiction de la richesse (par exemple, un R² de 0,77 contre 0,63 sur des partitions hors échantillon), avec une connaissance interne du LLM s'avérant plus efficace que les textes récupérés par l'agent, améliorant ainsi la robustesse à la généralisation hors pays et hors période. Deuxièmement, nous observons une convergence partielle des représentations : les embeddings fusionnés des modalités vision/langue présentent une corrélation modérée (similarité cosinus médiane de 0,60 après alignement), suggérant un code latent partagé de bien-être matériel tout en conservant des détails complémentaires, en accord avec l'Hypothèse de Représentation Platonicienne. Bien que les textes issus uniquement du LLM surpassent les données récupérées par l'agent, remettant en question notre Hypothèse de Nouveauté Induite par l'Agent, des gains modestes obtenus en combinant les données de l'agent dans certaines partitions soutiennent faiblement l'idée que les informations collectées par l'agent introduisent des structures représentationnelles uniques non entièrement capturées par la connaissance statique du LLM. Troisièmement, nous publions un ensemble de données multimodal à grande échelle comprenant plus de 60 000 clusters DHS liés à des images satellitaires, des descriptions générées par LLM et des textes récupérés par l'agent.
English
We investigate whether socio-economic indicators like household wealth leave
recoverable imprints in satellite imagery (capturing physical features) and
Internet-sourced text (reflecting historical/economic narratives). Using
Demographic and Health Survey (DHS) data from African neighborhoods, we pair
Landsat images with LLM-generated textual descriptions conditioned on
location/year and text retrieved by an AI search agent from web sources. We
develop a multimodal framework predicting household wealth (International
Wealth Index) through five pipelines: (i) vision model on satellite images,
(ii) LLM using only location/year, (iii) AI agent searching/synthesizing web
text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework
yields three contributions. First, fusing vision and agent/LLM text outperforms
vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on
out-of-sample splits), with LLM-internal knowledge proving more effective than
agent-retrieved text, improving robustness to out-of-country and out-of-time
generalization. Second, we find partial representational convergence: fused
embeddings from vision/language modalities correlate moderately (median cosine
similarity of 0.60 after alignment), suggesting a shared latent code of
material well-being while retaining complementary details, consistent with the
Platonic Representation Hypothesis. Although LLM-only text outperforms
agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest
gains from combining agent data in some splits weakly support the notion that
agent-gathered information introduces unique representational structures not
fully captured by static LLM knowledge. Third, we release a large-scale
multimodal dataset comprising more than 60,000 DHS clusters linked to satellite
images, LLM-generated descriptions, and agent-retrieved texts.