Платонические представления для картирования бедности: унифицированные визуально-языковые коды или индуцированная агентами новизна?
Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
August 1, 2025
Авторы: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI
Аннотация
Мы исследуем, оставляют ли социально-экономические показатели, такие как благосостояние домохозяйств, восстанавливаемые следы в спутниковых изображениях (отражающих физические характеристики) и текстах, полученных из интернета (отражающих исторические/экономические нарративы). Используя данные Демографических и медицинских обследований (DHS) из африканских районов, мы сопоставляем изображения Landsat с текстовыми описаниями, сгенерированными языковыми моделями (LLM), основанными на местоположении/годе, и текстами, извлеченными поисковым агентом с искусственным интеллектом из веб-источников. Мы разрабатываем мультимодальную структуру, предсказывающую благосостояние домохозяйств (Международный индекс благосостояния) через пять подходов: (i) модель компьютерного зрения на спутниковых изображениях, (ii) LLM, использующая только местоположение/год, (iii) поисковый агент, извлекающий и синтезирующий веб-тексты, (iv) совместный кодировщик изображений и текстов, (v) ансамбль всех сигналов. Наша структура вносит три вклада. Во-первых, объединение данных компьютерного зрения и текстов, полученных агентом/LLM, превосходит базовые модели, основанные только на изображениях, в предсказании благосостояния (например, R-квадрат 0,77 против 0,63 на тестовых данных), при этом внутренние знания LLM оказываются более эффективными, чем тексты, извлеченные агентом, повышая устойчивость к обобщению за пределами страны и времени. Во-вторых, мы обнаруживаем частичную конвергенцию представлений: объединенные эмбеддинги из модальностей зрения и языка умеренно коррелируют (медианное косинусное сходство 0,60 после выравнивания), что указывает на общий латентный код материального благополучия, сохраняя при этом дополнительные детали, что согласуется с Гипотезой платонического представления. Хотя тексты, сгенерированные только LLM, превосходят данные, извлеченные агентом, что ставит под сомнение нашу Гипотезу новизны, индуцированной агентом, скромные улучшения от комбинирования данных агента в некоторых случаях слабо поддерживают идею о том, что информация, собранная агентом, вносит уникальные структуры представлений, не полностью захваченные статическими знаниями LLM. В-третьих, мы публикуем крупномасштабный мультимодальный набор данных, включающий более 60 000 кластеров DHS, связанных со спутниковыми изображениями, описаниями, сгенерированными LLM, и текстами, извлеченными агентом.
English
We investigate whether socio-economic indicators like household wealth leave
recoverable imprints in satellite imagery (capturing physical features) and
Internet-sourced text (reflecting historical/economic narratives). Using
Demographic and Health Survey (DHS) data from African neighborhoods, we pair
Landsat images with LLM-generated textual descriptions conditioned on
location/year and text retrieved by an AI search agent from web sources. We
develop a multimodal framework predicting household wealth (International
Wealth Index) through five pipelines: (i) vision model on satellite images,
(ii) LLM using only location/year, (iii) AI agent searching/synthesizing web
text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework
yields three contributions. First, fusing vision and agent/LLM text outperforms
vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on
out-of-sample splits), with LLM-internal knowledge proving more effective than
agent-retrieved text, improving robustness to out-of-country and out-of-time
generalization. Second, we find partial representational convergence: fused
embeddings from vision/language modalities correlate moderately (median cosine
similarity of 0.60 after alignment), suggesting a shared latent code of
material well-being while retaining complementary details, consistent with the
Platonic Representation Hypothesis. Although LLM-only text outperforms
agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest
gains from combining agent data in some splits weakly support the notion that
agent-gathered information introduces unique representational structures not
fully captured by static LLM knowledge. Third, we release a large-scale
multimodal dataset comprising more than 60,000 DHS clusters linked to satellite
images, LLM-generated descriptions, and agent-retrieved texts.