ChatPaper.aiChatPaper

Plus de contexte, moins de distraction : classification visuelle par inférence et conditionnement sur les attributs contextuels

More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

August 2, 2023
Auteurs: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
cs.AI

Résumé

CLIP, en tant que modèle fondamental de vision et langage, est largement utilisé dans la classification d'images en zero-shot grâce à sa capacité à comprendre divers concepts visuels et descriptions en langage naturel. Cependant, la manière d'exploiter pleinement les capacités de compréhension quasi humaines sans précédent de CLIP pour améliorer la classification en zero-shot reste une question ouverte. Ce document s'inspire du processus de perception visuelle humaine : une perspective moderne des neurosciences suggère que, pour classer un objet, les humains infèrent d'abord ses attributs indépendants de la classe (par exemple, l'arrière-plan et l'orientation), ce qui aide à séparer l'objet au premier plan de l'arrière-plan, puis prennent des décisions basées sur ces informations. Inspirés par cela, nous observons que fournir à CLIP des attributs contextuels améliore la classification en zero-shot et réduit la dépendance aux caractéristiques fallacieuses. Nous observons également que CLIP lui-même peut raisonnablement inférer les attributs à partir d'une image. Avec ces observations, nous proposons une méthode de classification en zero-shot en deux étapes, sans apprentissage, nommée PerceptionCLIP. Étant donnée une image, elle infère d'abord les attributs contextuels (par exemple, l'arrière-plan), puis effectue la classification de l'objet en les prenant en compte. Nos expériences montrent que PerceptionCLIP atteint une meilleure généralisation, une robustesse de groupe accrue et une meilleure interprétabilité. Par exemple, PerceptionCLIP avec ViT-L/14 améliore la précision du groupe le plus faible de 16,5 % sur le jeu de données Waterbirds et de 3,5 % sur CelebA.
English
CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
PDF80December 15, 2024