ChatPaper.aiChatPaper

빈곤 지도 작성을 위한 플라톤적 표현: 통합된 비전-언어 코드인가, 아니면 에이전트 유도적 독창성인가?

Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

August 1, 2025
저자: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud
cs.AI

초록

우리는 가계 부와 같은 사회경제적 지표가 위성 이미지(물리적 특성 포착)와 인터넷 소스 텍스트(역사적/경제적 서사 반영)에 복구 가능한 흔적을 남기는지 조사한다. 아프리카 지역의 인구 및 건강 조사(DHS) 데이터를 사용하여, Landsat 이미지를 위치/연도에 따라 조건화된 대형 언어 모델(LLM) 생성 텍스트 설명 및 AI 검색 에이전트가 웹 소스에서 검색한 텍스트와 짝짓는다. 우리는 다섯 가지 파이프라인을 통해 가계 부(국제 부 지수)를 예측하는 다중모달 프레임워크를 개발한다: (i) 위성 이미지에 대한 비전 모델, (ii) 위치/연도만 사용하는 LLM, (iii) 웹 텍스트를 검색/통합하는 AI 에이전트, (iv) 이미지-텍스트 공동 인코더, (v) 모든 신호의 앙상블. 우리의 프레임워크는 세 가지 기여를 한다. 첫째, 비전과 에이전트/LLM 텍스트를 융합하는 것이 부 예측에서 비전만 사용한 기준선을 능가하며(예: 표본 외 분할에서 R-제곱 0.77 대 0.63), LLM 내부 지식이 에이전트 검색 텍스트보다 더 효과적임이 입증되어 국가 외 및 시간 외 일반화에 대한 견고성을 향상시킨다. 둘째, 부분적 표현 수렴을 발견한다: 비전/언어 모달리티에서 융합된 임베딩은 중간 정도의 상관관계를 보이며(정렬 후 중간 코사인 유사도 0.60), 물질적 안녕의 공유 잠재 코드를 제안하면서도 보완적 세부 사항을 유지하며, 이는 플라톤적 표현 가설과 일치한다. LLM만 사용한 텍스트가 에이전트 검색 데이터를 능가하여 에이전트 유도 신규성 가설에 도전하지만, 일부 분할에서 에이전트 데이터를 결합한 것에서의 미미한 이득은 에이전트 수집 정보가 정적 LLM 지식으로 완전히 포착되지 않은 독특한 표현 구조를 도입한다는 개념을 약하게 지지한다. 셋째, 위성 이미지, LLM 생성 설명, 에이전트 검색 텍스트와 연결된 60,000개 이상의 DHS 클러스터로 구성된 대규모 다중모달 데이터셋을 공개한다.
English
We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.
PDF22August 5, 2025