Más allá de la memorización: Un punto de referencia de regresión ordinal multimodal para exponer el sesgo de popularidad en modelos de visión y lenguaje
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
December 24, 2025
Autores: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI
Resumen
Exponemos un sesgo de popularidad significativo en los modelos de visión y lenguaje (VLM) de vanguardia, que alcanzan hasta un 34% más de precisión en edificios famosos en comparación con los ordinarios, lo que indica una dependencia de la memorización sobre una comprensión generalizable. Para investigar esto sistemáticamente, presentamos el benchmark abierto más grande para esta tarea: el conjunto de datos YearGuessr, una colección de 55.546 imágenes de edificios con atributos multimodales de 157 países, anotadas con etiquetas ordinales continuas de su año de construcción (1001-2024), datos GPS y recuentos de visitas a la página como proxy de popularidad. Utilizando este conjunto de datos, enmarcamos la tarea de predicción del año de construcción como una regresión ordinal e introducimos métricas de precisión por intervalos sensibles a la popularidad para cuantificar este sesgo. Nuestro benchmark resultante de más de 30 modelos, incluido nuestro modelo YearCLIP, confirma que los VLM sobresalen en elementos populares y memorizados, pero tienen dificultades significativas con sujetos no reconocidos, exponiendo una falla crítica en sus capacidades de razonamiento. Página del proyecto: https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/