За пределами запоминания: сравнительный анализ мультимодальной порядковой регрессии для выявления предвзятости популярности в моделях "визуальный вход-текстовый выход"
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
December 24, 2025
Авторы: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI
Аннотация
Мы выявляем значительную предвзятость к популярности в современных моделях «визуальный язык» (VLMs), которые демонстрируют до 34% более высокую точность в распознавании известных зданий по сравнению с обычными, что указывает на зависимость от запоминания, а не от обобщающего понимания. Для систематического исследования этой проблемы мы представляем самый крупный открытый бенчмарк для данной задачи: набор данных YearGuessr, включающий 55 546 изображений зданий с мультимодальными атрибутами из 157 стран, аннотированных непрерывными порядковыми метками года постройки (1001–2024), GPS-данными и количеством просмотров страниц в качестве показателя популярности. Используя этот набор данных, мы формулируем задачу предсказания года постройки как порядковую регрессию и вводим метрики точности с учётом популярности для количественной оценки этого смещения. Наш итоговый бенчмарк, включающий более 30 моделей (в том числе нашу модель YearCLIP), подтверждает, что VLMs превосходно справляются с популярными, запомненными объектами, но значительно затрудняются с нераспознанными сюжетами, что выявляет критический недостаток в их способностях к рассуждению. Страница проекта: https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/