Além da Memorização: Um Benchmark de Regressão Ordinal Multimodal para Expor o Viés de Popularidade em Modelos de Visão e Linguagem

Resumo

Expomos um viés significativo de popularidade em modelos estado da arte de visão e linguagem (VLMs), que atingem até 34% maior precisão em edifícios famosos em comparação com edifícios comuns, indicando uma dependência de memorização em vez de compreensão generalizável. Para investigar isso sistematicamente, introduzimos o maior benchmark aberto para esta tarefa: o conjunto de dados YearGuessr, uma coleção de 55.546 imagens de edifícios com atributos multimodais de 157 países, anotadas com rótulos ordinais contínuos do seu ano de construção (1001-2024), dados GPS e contagens de visualização de página como um *proxy* para popularidade. Utilizando este conjunto de dados, enquadramos a tarefa de previsão do ano de construção como uma regressão ordinal e introduzimos métricas de precisão de intervalo sensíveis à popularidade para quantificar este viés. O nosso *benchmark* resultante de 30+ modelos, incluindo o nosso modelo YearCLIP, confirma que os VLMs se destacam em itens populares e memorizados, mas têm dificuldades significativas com sujeitos não reconhecidos, expondo uma falha crítica nas suas capacidades de raciocínio. Página do projeto: https://sytwu.github.io/BeyondMemo/

English

We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/

Além da Memorização: Um Benchmark de Regressão Ordinal Multimodal para Expor o Viés de Popularidade em Modelos de Visão e Linguagem

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Resumo

Support