ChatPaper.aiChatPaper

Voorbij Memorisatie: Een Multi-modale Ordinale Regressie Benchmark om Populariteitsvooroordeel in Visie-Taalmodellen Bloot te Legen

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

December 24, 2025
Auteurs: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI

Samenvatting

Wij leggen een significante populariteitsbias bloot in state-of-the-art vision-language modellen (VLM's). Deze modellen behalen tot 34% hogere nauwkeurigheid op foto's van beroemde gebouwen in vergelijking met gewone gebouwen, wat duidt op een afhankelijkheid van memorisatie in plaats van algemeen toepasbaar begrip. Om dit systematisch te onderzoeken, introduceren we de grootste open benchmark voor deze taak: de YearGuessr-dataset. Deze dataset bestaat uit 55.546 afbeeldingen van gebouwen uit 157 landen, voorzien van multi-modale attributen, continue ordinale labels voor hun bouwjaar (1001-2024), GPS-gegevens en paginaweergaves als indicator voor populariteit. Met behulp van deze dataset formuleren we de taak van bouwjaarvoorspelling als ordinale regressie en introduceren we populariteitsgevoelige intervalnauwkeurigheidsmetingen om deze bias te kwantificeren. Onze resulterende benchmark van meer dan 30 modellen, inclusief ons YearCLIP-model, bevestigt dat VLM's uitblinken bij populaire, gememoriseerde items maar significant worstelen met onherkende onderwerpen. Dit legt een kritieke tekortkoming in hun redeneervermogen bloot. Projectpagina: https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/
PDF201December 26, 2025