ChatPaper.aiChatPaper

RePOPE: Impacto dos Erros de Anotação no Benchmark POPE

RePOPE: Impact of Annotation Errors on the POPE Benchmark

April 22, 2025
Autores: Yannic Neuhaus, Matthias Hein
cs.AI

Resumo

Como a anotação de dados é custosa, conjuntos de dados de referência frequentemente incorporam rótulos de conjuntos de imagens estabelecidos. Neste trabalho, avaliamos o impacto de erros de rótulo no MSCOCO sobre o benchmark de alucinação de objetos frequentemente utilizado, POPE. Re-anotamos as imagens do benchmark e identificamos um desequilíbrio nos erros de anotação entre diferentes subconjuntos. Avaliando múltiplos modelos com os rótulos revisados, que denominamos RePOPE, observamos mudanças significativas na classificação dos modelos, destacando o impacto da qualidade dos rótulos. O código e os dados estão disponíveis em https://github.com/YanNeu/RePOPE.
English
Since data annotation is costly, benchmark datasets often incorporate labels from established image datasets. In this work, we assess the impact of label errors in MSCOCO on the frequently used object hallucination benchmark POPE. We re-annotate the benchmark images and identify an imbalance in annotation errors across different subsets. Evaluating multiple models on the revised labels, which we denote as RePOPE, we observe notable shifts in model rankings, highlighting the impact of label quality. Code and data are available at https://github.com/YanNeu/RePOPE .

Summary

AI-Generated Summary

PDF82April 24, 2025