記憶を超えて:視覚言語モデルにおける人気バイアスを明らかにするマルチモーダル順序回帰ベンチマーク
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
December 24, 2025
著者: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI
要旨
最先端の視覚言語モデル(VLM)には重大な知名度バイアスが存在することを明らかにした。有名な建築物では一般的な建築物に比べて最大34%も精度が高く、一般化可能な理解ではなく記憶への依存を示唆している。この問題を体系的に調査するため、本タスク向けの最大規模のオープンベンチマーク「YearGuessrデータセット」を導入する。これは157カ国から収集した55,546枚の建築物画像から成り、建設年(1001-2024年)の連続順序ラベル、GPSデータ、知名度の代理指標としてのページビュー数といったマルチモーダル属性が付与されている。本データセットを用いて建設年予測タスクを順序回帰として定式化し、知名度を考慮した区間精度指標を導入してこのバイアスを定量化する。我々のYearCLIPモデルを含む30以上のモデルによるベンチマーク結果は、VLMが記憶された人気項目では優れる一方、認識されない対象では著しく苦戦することを確認し、推論能力における重大な欠陥を暴露する。プロジェクトページ: https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/