RePOPE: Влияние ошибок аннотирования на бенчмарк POPE
RePOPE: Impact of Annotation Errors on the POPE Benchmark
April 22, 2025
Авторы: Yannic Neuhaus, Matthias Hein
cs.AI
Аннотация
Поскольку аннотирование данных является затратным процессом, эталонные наборы данных часто включают метки из уже существующих наборов изображений. В данной работе мы оцениваем влияние ошибок в метках набора данных MSCOCO на часто используемый бенчмарк для оценки галлюцинаций объектов POPE. Мы повторно аннотируем изображения из бенчмарка и выявляем дисбаланс в ошибках аннотации между различными подмножествами. Оценивая несколько моделей на основе исправленных меток, которые мы обозначаем как RePOPE, мы наблюдаем значительные изменения в рейтингах моделей, что подчеркивает влияние качества меток. Код и данные доступны по адресу https://github.com/YanNeu/RePOPE.
English
Since data annotation is costly, benchmark datasets often incorporate labels
from established image datasets. In this work, we assess the impact of label
errors in MSCOCO on the frequently used object hallucination benchmark POPE. We
re-annotate the benchmark images and identify an imbalance in annotation errors
across different subsets. Evaluating multiple models on the revised labels,
which we denote as RePOPE, we observe notable shifts in model rankings,
highlighting the impact of label quality. Code and data are available at
https://github.com/YanNeu/RePOPE .Summary
AI-Generated Summary