RePOPE: Impacto de los Errores de Anotación en el Benchmark POPE

Resumen

Dado que la anotación de datos es costosa, los conjuntos de datos de referencia a menudo incorporan etiquetas de conjuntos de imágenes establecidos. En este trabajo, evaluamos el impacto de los errores de etiquetado en MSCOCO sobre el punto de referencia de alucinación de objetos POPE, utilizado con frecuencia. Re-anotamos las imágenes del punto de referencia e identificamos un desequilibrio en los errores de anotación entre diferentes subconjuntos. Al evaluar múltiples modelos con las etiquetas revisadas, que denominamos RePOPE, observamos cambios notables en las clasificaciones de los modelos, destacando el impacto de la calidad del etiquetado. El código y los datos están disponibles en https://github.com/YanNeu/RePOPE.

English

Since data annotation is costly, benchmark datasets often incorporate labels from established image datasets. In this work, we assess the impact of label errors in MSCOCO on the frequently used object hallucination benchmark POPE. We re-annotate the benchmark images and identify an imbalance in annotation errors across different subsets. Evaluating multiple models on the revised labels, which we denote as RePOPE, we observe notable shifts in model rankings, highlighting the impact of label quality. Code and data are available at https://github.com/YanNeu/RePOPE .

RePOPE: Impacto de los Errores de Anotación en el Benchmark POPE

RePOPE: Impact of Annotation Errors on the POPE Benchmark

Resumen

Support