RePOPE: Impacto de los Errores de Anotación en el Benchmark POPE
RePOPE: Impact of Annotation Errors on the POPE Benchmark
April 22, 2025
Autores: Yannic Neuhaus, Matthias Hein
cs.AI
Resumen
Dado que la anotación de datos es costosa, los conjuntos de datos de referencia a menudo incorporan etiquetas de conjuntos de imágenes establecidos. En este trabajo, evaluamos el impacto de los errores de etiquetado en MSCOCO sobre el punto de referencia de alucinación de objetos POPE, utilizado con frecuencia. Re-anotamos las imágenes del punto de referencia e identificamos un desequilibrio en los errores de anotación entre diferentes subconjuntos. Al evaluar múltiples modelos con las etiquetas revisadas, que denominamos RePOPE, observamos cambios notables en las clasificaciones de los modelos, destacando el impacto de la calidad del etiquetado. El código y los datos están disponibles en https://github.com/YanNeu/RePOPE.
English
Since data annotation is costly, benchmark datasets often incorporate labels
from established image datasets. In this work, we assess the impact of label
errors in MSCOCO on the frequently used object hallucination benchmark POPE. We
re-annotate the benchmark images and identify an imbalance in annotation errors
across different subsets. Evaluating multiple models on the revised labels,
which we denote as RePOPE, we observe notable shifts in model rankings,
highlighting the impact of label quality. Code and data are available at
https://github.com/YanNeu/RePOPE .Summary
AI-Generated Summary