Oltre la memorizzazione: un benchmark di regressione ordinale multimodale per evidenziare il bias di popolarità nei modelli visione-linguaggio
Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
December 24, 2025
Autori: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
cs.AI
Abstract
Rileviamo un significativo bias di popolarità nei modelli visione-linguaggio (VLM) allo stato dell'arte, che raggiungono un'accuratezza fino al 34% superiore sugli edifici famosi rispetto a quelli ordinari, indicando un affidamento sulla memorizzazione piuttosto che su una comprensione generalizzabile. Per indagare sistematicamente questo fenomeno, introduciamo il più ampio benchmark aperto per questo compito: il dataset YearGuessr, una raccolta di 55.546 immagini di edifici con attributi multimodali da 157 paesi, annotate con etichette ordinali continue del loro anno di costruzione (1001-2024), dati GPS e conteggi di visualizzazioni di pagina come proxy per la popolarità. Utilizzando questo dataset, inquadriamo il compito di previsione dell'anno di costruzione come una regressione ordinale e introduciamo metriche di accuratezza per intervallo consapevoli della popolarità per quantificare questo bias. Il nostro benchmark risultante, che include oltre 30 modelli, incluso il nostro modello YearCLIP, conferma che i VLM eccellono sugli elementi popolari e memorizzati, ma hanno notevoli difficoltà con soggetti non riconosciuti, esponendo una lacuna critica nelle loro capacità di ragionamento. Pagina del progetto: https://sytwu.github.io/BeyondMemo/
English
We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/