FACET: Бенчмарк для оценки справедливости в компьютерном зрении
FACET: Fairness in Computer Vision Evaluation Benchmark
August 31, 2023
Авторы: Laura Gustafson, Chloe Rolland, Nikhila Ravi, Quentin Duval, Aaron Adcock, Cheng-Yang Fu, Melissa Hall, Candace Ross
cs.AI
Аннотация
Модели компьютерного зрения демонстрируют различия в производительности в зависимости от таких атрибутов, как пол и тон кожи. Это означает, что при выполнении задач, таких как классификация и обнаружение, производительность модели различается для определённых классов в зависимости от демографических характеристик людей на изображении. Хотя существование таких различий было доказано, до сих пор не было единого подхода для их измерения в типичных сценариях использования моделей компьютерного зрения. Мы представляем новый эталонный набор под названием FACET (FAirness in Computer Vision EvaluaTion) — крупный, общедоступный набор данных для оценки, содержащий 32 тыс. изображений, предназначенных для наиболее распространённых задач компьютерного зрения: классификации изображений, обнаружения объектов и сегментации. Для каждого изображения в FACET мы привлекли экспертов для ручной аннотации атрибутов, связанных с людьми, таких как воспринимаемый тон кожи и тип волос, ручного рисования ограничивающих рамок и маркировки детализированных классов, связанных с людьми, например, диджей или гитарист. Кроме того, мы используем FACET для тестирования современных моделей компьютерного зрения и предоставляем более глубокое понимание потенциальных различий в производительности и проблем, связанных с чувствительными демографическими атрибутами. Собрав исчерпывающие аннотации, мы исследуем модели, используя как отдельные демографические атрибуты, так и их комбинации, применяя интерсекциональный подход (например, цвет волос и воспринимаемый тон кожи). Наши результаты показывают, что модели классификации, обнаружения, сегментации и визуального связывания демонстрируют различия в производительности в зависимости от демографических атрибутов и их комбинаций. Эти недостатки указывают на то, что не все люди, представленные в наборах данных, получают справедливое и равноправное отношение при выполнении этих задач компьютерного зрения. Мы надеемся, что текущие и будущие результаты, полученные с использованием нашего эталонного набора, будут способствовать созданию более справедливых и устойчивых моделей компьютерного зрения. FACET доступен по адресу: https://facet.metademolab.com/
English
Computer vision models have known performance disparities across attributes
such as gender and skin tone. This means during tasks such as classification
and detection, model performance differs for certain classes based on the
demographics of the people in the image. These disparities have been shown to
exist, but until now there has not been a unified approach to measure these
differences for common use-cases of computer vision models. We present a new
benchmark named FACET (FAirness in Computer Vision EvaluaTion), a large,
publicly available evaluation set of 32k images for some of the most common
vision tasks - image classification, object detection and segmentation. For
every image in FACET, we hired expert reviewers to manually annotate
person-related attributes such as perceived skin tone and hair type, manually
draw bounding boxes and label fine-grained person-related classes such as disk
jockey or guitarist. In addition, we use FACET to benchmark state-of-the-art
vision models and present a deeper understanding of potential performance
disparities and challenges across sensitive demographic attributes. With the
exhaustive annotations collected, we probe models using single demographics
attributes as well as multiple attributes using an intersectional approach
(e.g. hair color and perceived skin tone). Our results show that
classification, detection, segmentation, and visual grounding models exhibit
performance disparities across demographic attributes and intersections of
attributes. These harms suggest that not all people represented in datasets
receive fair and equitable treatment in these vision tasks. We hope current and
future results using our benchmark will contribute to fairer, more robust
vision models. FACET is available publicly at https://facet.metademolab.com/