암기 그 이상: 시각-언어 모델의 인기 편향을 드러내는 다중 모드 순위 회귀 벤치마크
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
December 24, 2025
저자: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI
초록
최신 시각-언어 모델(VLM)에서 중요한 인기 편향을 발견했습니다. 이 모델들은 일반 건물에 비해 유명 건물에서 최대 34% 높은 정확도를 보여, 일반화된 이해보다는 암기에 의존함을 시사합니다. 이를 체계적으로 연구하기 위해 해당 작업을 위한 가장 큰 오픈 벤치마크인 YearGuessr 데이터셋을 소개합니다. 이는 157개국에서 수집한 55,546개의 건물 이미지로, 건축 연도(1001-2024)에 대한 연속 서수 레이블, GPS 데이터, 인기도를 대변하는 페이지 뷰 수 등 다중 모드 속성을 포함합니다. 이 데이터셋을 활용해 건축 연도 예측 작업을 서수 회귀 문제로 설정하고, 이 편향을 정량화하기 위해 인기 인식 간격 정확도 지표를 도입했습니다. 우리의 YearCLIP 모델을 포함한 30개 이상의 모델에 대한 벤치마크 결과, VLM이 인기 있고 암기된 항목에서는 뛰어난 성능을 보이지만 인지되지 않은 주제에서는 현저히 어려움을 겪어 그들의 추론 능력에 치명적인 결함이 있음이 확인되었습니다. 프로젝트 페이지: https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/