ChatPaper.aiChatPaper

RePOPE : Impact des erreurs d'annotation sur le benchmark POPE

RePOPE: Impact of Annotation Errors on the POPE Benchmark

April 22, 2025
Auteurs: Yannic Neuhaus, Matthias Hein
cs.AI

Résumé

Comme l'annotation des données est coûteuse, les ensembles de données de référence intègrent souvent des étiquettes provenant de jeux de données d'images établis. Dans ce travail, nous évaluons l'impact des erreurs d'étiquetage dans MSCOCO sur le benchmark fréquemment utilisé pour l'hallucination d'objets, POPE. Nous ré-annotons les images du benchmark et identifions un déséquilibre dans les erreurs d'annotation entre différents sous-ensembles. En évaluant plusieurs modèles sur les étiquettes révisées, que nous désignons sous le nom de RePOPE, nous observons des changements notables dans le classement des modèles, mettant en évidence l'impact de la qualité des étiquettes. Le code et les données sont disponibles à l'adresse https://github.com/YanNeu/RePOPE.
English
Since data annotation is costly, benchmark datasets often incorporate labels from established image datasets. In this work, we assess the impact of label errors in MSCOCO on the frequently used object hallucination benchmark POPE. We re-annotate the benchmark images and identify an imbalance in annotation errors across different subsets. Evaluating multiple models on the revised labels, which we denote as RePOPE, we observe notable shifts in model rankings, highlighting the impact of label quality. Code and data are available at https://github.com/YanNeu/RePOPE .

Summary

AI-Generated Summary

PDF82April 24, 2025