FACET : Benchmark d'Évaluation de l'Équité en Vision par Ordinateur
FACET: Fairness in Computer Vision Evaluation Benchmark
August 31, 2023
Auteurs: Laura Gustafson, Chloe Rolland, Nikhila Ravi, Quentin Duval, Aaron Adcock, Cheng-Yang Fu, Melissa Hall, Candace Ross
cs.AI
Résumé
Les modèles de vision par ordinateur présentent des disparités de performance selon des attributs tels que le genre et la teinte de peau. Cela signifie que lors de tâches telles que la classification et la détection, les performances du modèle varient pour certaines classes en fonction des caractéristiques démographiques des personnes dans l'image. Ces disparités ont été démontrées, mais jusqu'à présent, il n'existait pas d'approche unifiée pour mesurer ces différences dans les cas d'utilisation courants des modèles de vision par ordinateur. Nous présentons un nouveau benchmark nommé FACET (FAirness in Computer Vision EvaluaTion), un ensemble d'évaluation de 32 000 images, disponible publiquement, pour certaines des tâches de vision les plus courantes : classification d'images, détection d'objets et segmentation. Pour chaque image de FACET, nous avons engagé des experts pour annoter manuellement des attributs liés aux personnes, tels que la teinte de peau perçue et le type de cheveux, dessiner manuellement des boîtes englobantes et étiqueter des classes fines liées aux personnes, comme disc-jockey ou guitariste. De plus, nous utilisons FACET pour évaluer les modèles de vision de pointe et offrir une compréhension approfondie des disparités de performance potentielles et des défis liés aux attributs démographiques sensibles. Avec les annotations exhaustives collectées, nous sondons les modèles en utilisant des attributs démographiques individuels ainsi que plusieurs attributs via une approche intersectionnelle (par exemple, la couleur des cheveux et la teinte de peau perçue). Nos résultats montrent que les modèles de classification, de détection, de segmentation et de localisation visuelle présentent des disparités de performance selon les attributs démographiques et les intersections d'attributs. Ces préjudices suggèrent que toutes les personnes représentées dans les ensembles de données ne reçoivent pas un traitement équitable et juste dans ces tâches de vision. Nous espérons que les résultats actuels et futurs obtenus avec notre benchmark contribueront à des modèles de vision plus équitables et robustes. FACET est disponible publiquement à l'adresse https://facet.metademolab.com/.
English
Computer vision models have known performance disparities across attributes
such as gender and skin tone. This means during tasks such as classification
and detection, model performance differs for certain classes based on the
demographics of the people in the image. These disparities have been shown to
exist, but until now there has not been a unified approach to measure these
differences for common use-cases of computer vision models. We present a new
benchmark named FACET (FAirness in Computer Vision EvaluaTion), a large,
publicly available evaluation set of 32k images for some of the most common
vision tasks - image classification, object detection and segmentation. For
every image in FACET, we hired expert reviewers to manually annotate
person-related attributes such as perceived skin tone and hair type, manually
draw bounding boxes and label fine-grained person-related classes such as disk
jockey or guitarist. In addition, we use FACET to benchmark state-of-the-art
vision models and present a deeper understanding of potential performance
disparities and challenges across sensitive demographic attributes. With the
exhaustive annotations collected, we probe models using single demographics
attributes as well as multiple attributes using an intersectional approach
(e.g. hair color and perceived skin tone). Our results show that
classification, detection, segmentation, and visual grounding models exhibit
performance disparities across demographic attributes and intersections of
attributes. These harms suggest that not all people represented in datasets
receive fair and equitable treatment in these vision tasks. We hope current and
future results using our benchmark will contribute to fairer, more robust
vision models. FACET is available publicly at https://facet.metademolab.com/