ChatPaper.aiChatPaper

Platonische Representaties voor Armoedekaarten: Verenigde Visie-Taal Codes of Agent-Gegenereerde Nieuwigheid?

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

August 1, 2025
Auteurs: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI

Samenvatting

We onderzoeken of sociaal-economische indicatoren zoals huishoudelijk vermogen herkenbare sporen achterlaten in satellietbeelden (die fysieke kenmerken vastleggen) en internet-gebaseerde tekst (die historische/economische narratieven weerspiegelt). Met behulp van gegevens uit de Demographic and Health Survey (DHS) van Afrikaanse buurten combineren we Landsat-beelden met door een LLM gegenereerde tekstuele beschrijvingen die zijn geconditioneerd op locatie/jaar en tekst die door een AI-zoekagent is opgehaald uit web bronnen. We ontwikkelen een multimodaal raamwerk dat huishoudelijk vermogen (International Wealth Index) voorspelt via vijf pijplijnen: (i) een vision-model op satellietbeelden, (ii) een LLM die alleen locatie/jaar gebruikt, (iii) een AI-agent die webtekst zoekt en synthetiseert, (iv) een gezamenlijke beeld-tekst encoder, (v) een ensemble van alle signalen. Ons raamwerk levert drie bijdragen. Ten eerste presteert het combineren van vision en agent/LLM-tekst beter dan vision-only baselines in het voorspellen van vermogen (bijvoorbeeld een R-kwadraat van 0.77 vs. 0.63 op out-of-sample splits), waarbij interne kennis van de LLM effectiever blijkt dan door de agent opgehaalde tekst, wat de robuustheid verbetert voor generalisatie buiten het land en buiten de tijd. Ten tweede vinden we gedeeltelijke representatieconvergentie: gefuseerde embeddings van vision/taal modaliteiten correleren matig (mediaan cosinusgelijkenis van 0.60 na uitlijning), wat suggereert dat er een gedeelde latente code van materieel welzijn is terwijl complementaire details behouden blijven, in lijn met de Platonische Representatie Hypothese. Hoewel LLM-only tekst beter presteert dan door de agent opgehaalde data, wat onze Agent-Induced Novelty Hypothese uitdaagt, ondersteunen bescheiden winsten door het combineren van agent-data in sommige splits zwakjes het idee dat door de agent verzamelde informatie unieke representatiestructuren introduceert die niet volledig worden vastgelegd door statische LLM-kennis. Ten derde publiceren we een grootschalige multimodale dataset bestaande uit meer dan 60.000 DHS-clusters gekoppeld aan satellietbeelden, LLM-gegenereerde beschrijvingen en door agenten opgehaalde teksten.
English
We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.
PDF12August 5, 2025