Meer Context, Minder Afleiding: Visuele Classificatie door Contextuele Attributen Af te Leiden en Ervoor te Conditioneren
More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes
August 2, 2023
Auteurs: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
cs.AI
Samenvatting
CLIP, als een fundamenteel visueel-taalmodel, wordt veel gebruikt in zero-shot beeldclassificatie vanwege zijn vermogen om diverse visuele concepten en natuurlijke taal beschrijvingen te begrijpen. Echter, hoe men CLIP's ongekende, mensachtige begripsvermogen volledig kan benutten om betere zero-shot classificatie te bereiken, blijft een open vraag. Dit artikel put inspiratie uit het menselijke visuele waarnemingsproces: een moderne neurowetenschappelijke visie suggereert dat mensen bij het classificeren van een object eerst de klasse-onafhankelijke attributen (bijv. achtergrond en oriëntatie) afleiden, wat helpt om het voorgrondobject van de achtergrond te scheiden, en vervolgens beslissingen nemen op basis van deze informatie. Geïnspireerd door dit inzicht, merken we op dat het aanbieden van contextuele attributen aan CLIP de zero-shot classificatie verbetert en de afhankelijkheid van irrelevante kenmerken vermindert. We observeren ook dat CLIP zelf redelijk in staat is om de attributen uit een afbeelding af te leiden. Met deze observaties stellen we een trainingsvrije, tweestaps zero-shot classificatiemethode voor, genaamd PerceptionCLIP. Gegeven een afbeelding, leidt het eerst de contextuele attributen (bijv. achtergrond) af en voert vervolgens objectclassificatie uit op basis daarvan. Onze experimenten tonen aan dat PerceptionCLIP betere generalisatie, groep robuustheid en betere interpreteerbaarheid bereikt. Zo verbetert PerceptionCLIP met ViT-L/14 de nauwkeurigheid van de slechtste groep met 16,5% op de Waterbirds dataset en met 3,5% op CelebA.
English
CLIP, as a foundational vision language model, is widely used in zero-shot
image classification due to its ability to understand various visual concepts
and natural language descriptions. However, how to fully leverage CLIP's
unprecedented human-like understanding capabilities to achieve better zero-shot
classification is still an open question. This paper draws inspiration from the
human visual perception process: a modern neuroscience view suggests that in
classifying an object, humans first infer its class-independent attributes
(e.g., background and orientation) which help separate the foreground object
from the background, and then make decisions based on this information.
Inspired by this, we observe that providing CLIP with contextual attributes
improves zero-shot classification and mitigates reliance on spurious features.
We also observe that CLIP itself can reasonably infer the attributes from an
image. With these observations, we propose a training-free, two-step zero-shot
classification method named PerceptionCLIP. Given an image, it first infers
contextual attributes (e.g., background) and then performs object
classification conditioning on them. Our experiments show that PerceptionCLIP
achieves better generalization, group robustness, and better interpretability.
For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by
16.5% on the Waterbirds dataset and by 3.5% on CelebA.