ChatPaper.aiChatPaper

Representações Platônicas para Mapeamento da Pobreza: Códigos Unificados de Visão-Linguagem ou Novidade Induzida por Agentes?

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

August 1, 2025
Autores: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI

Resumo

Investigamos se indicadores socioeconômicos, como a riqueza familiar, deixam impressões recuperáveis em imagens de satélite (capturando características físicas) e em textos obtidos da Internet (refletindo narrativas históricas/econômicas). Utilizando dados do Demographic and Health Survey (DHS) de bairros africanos, emparelhamos imagens do Landsat com descrições textuais geradas por modelos de linguagem (LLM) condicionadas por localização/ano e textos recuperados por um agente de busca de IA a partir de fontes da web. Desenvolvemos um framework multimodal para prever a riqueza familiar (International Wealth Index) por meio de cinco pipelines: (i) modelo de visão em imagens de satélite, (ii) LLM usando apenas localização/ano, (iii) agente de IA buscando/sintetizando textos da web, (iv) codificador conjunto de imagem-texto, (v) ensemble de todos os sinais. Nosso framework traz três contribuições. Primeiro, a fusão de visão e texto de agente/LLM supera as baselines apenas de visão na previsão de riqueza (por exemplo, R-quadrado de 0,77 vs. 0,63 em divisões fora da amostra), com o conhecimento interno do LLM provando-se mais eficaz do que o texto recuperado pelo agente, melhorando a robustez para generalização fora do país e do tempo. Segundo, encontramos convergência representacional parcial: embeddings fundidos das modalidades de visão/linguagem correlacionam-se moderadamente (similaridade de cosseno mediana de 0,60 após alinhamento), sugerindo um código latente compartilhado de bem-estar material enquanto retêm detalhes complementares, consistente com a Hipótese de Representação Platônica. Embora o texto apenas do LLM supere os dados recuperados pelo agente, desafiando nossa Hipótese de Novidade Induzida pelo Agente, ganhos modestos ao combinar dados do agente em algumas divisões apoiam fracamente a noção de que as informações coletadas pelo agente introduzem estruturas representacionais únicas não totalmente capturadas pelo conhecimento estático do LLM. Terceiro, disponibilizamos um conjunto de dados multimodal em larga escala, compreendendo mais de 60.000 clusters do DHS vinculados a imagens de satélite, descrições geradas por LLM e textos recuperados pelo agente.
English
We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.
PDF33August 5, 2025