Au-delà de la mémorisation : un benchmark de régression ordinale multi-modale pour révéler les biais de popularité dans les modèles vision-langage
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
December 24, 2025
papers.authors: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI
papers.abstract
Nous mettons en évidence un biais de popularité significatif dans les modèles vision-langue (VLM) de pointe, qui atteignent jusqu'à 34 % de précision supplémentaire sur les bâtiments célèbres par rapport aux bâtiments ordinaires, indiquant une dépendance à la mémorisation plutôt qu'à une compréhension généralisable. Pour étudier ce phénomène systématiquement, nous présentons le plus grand benchmark ouvert pour cette tâche : le jeu de données YearGuessr, une collection de 55 546 images de bâtiments avec des attributs multimodaux provenant de 157 pays, annotées avec des labels ordinaux continus de leur année de construction (1001-2024), des données GPS et des comptes de vues de pages comme indicateur de popularité. En utilisant ce jeu de données, nous formulons la tâche de prédiction d'année de construction comme une régression ordinale et introduisons des métriques de précision par intervalle sensibles à la popularité pour quantifier ce biais. Notre benchmark résultant de plus de 30 modèles, incluant notre modèle YearCLIP, confirme que les VLM excellent sur les éléments populaires et mémorisés mais rencontrent des difficultés significatives avec les sujets non reconnus, exposant une faille critique dans leurs capacités de raisonnement. Page du projet : https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/