Mehr Kontext, weniger Ablenkung: Visuelle Klassifikation durch Inferenz und Konditionierung auf kontextuelle Attribute
More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes
August 2, 2023
Autoren: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
cs.AI
Zusammenfassung
CLIP, als grundlegendes Vision-Sprachmodell, wird aufgrund seiner Fähigkeit, verschiedene visuelle Konzepte und natürliche Sprachbeschreibungen zu verstehen, häufig in der Zero-Shot-Bildklassifizierung eingesetzt. Dennoch bleibt die Frage offen, wie man die beispiellosen, menschenähnlichen Verständnisfähigkeiten von CLIP vollständig nutzen kann, um eine bessere Zero-Shot-Klassifizierung zu erreichen. Diese Arbeit lässt sich vom menschlichen visuellen Wahrnehmungsprozess inspirieren: Eine moderne neurowissenschaftliche Sichtweise legt nahe, dass Menschen bei der Klassifizierung eines Objekts zunächst dessen klassenunabhängige Attribute (z. B. Hintergrund und Ausrichtung) ableiten, die helfen, das Vordergrundobjekt vom Hintergrund zu trennen, und dann auf Basis dieser Informationen Entscheidungen treffen. Inspiriert davon beobachten wir, dass die Bereitstellung von kontextuellen Attributen für CLIP die Zero-Shot-Klassifizierung verbessert und die Abhängigkeit von irreführenden Merkmalen verringert. Wir stellen außerdem fest, dass CLIP selbst in der Lage ist, die Attribute aus einem Bild vernünftig abzuleiten. Aufgrund dieser Beobachtungen schlagen wir eine trainingsfreie, zweistufige Zero-Shot-Klassifizierungsmethode namens PerceptionCLIP vor. Bei einem Bild leitet sie zunächst kontextuelle Attribute (z. B. Hintergrund) ab und führt dann die Objektklassifizierung unter Berücksichtigung dieser Attribute durch. Unsere Experimente zeigen, dass PerceptionCLIP eine bessere Generalisierung, Gruppenrobustheit und Interpretierbarkeit erreicht. Beispielsweise verbessert PerceptionCLIP mit ViT-L/14 die Genauigkeit der schlechtesten Gruppe um 16,5 % auf dem Waterbirds-Datensatz und um 3,5 % auf CelebA.
English
CLIP, as a foundational vision language model, is widely used in zero-shot
image classification due to its ability to understand various visual concepts
and natural language descriptions. However, how to fully leverage CLIP's
unprecedented human-like understanding capabilities to achieve better zero-shot
classification is still an open question. This paper draws inspiration from the
human visual perception process: a modern neuroscience view suggests that in
classifying an object, humans first infer its class-independent attributes
(e.g., background and orientation) which help separate the foreground object
from the background, and then make decisions based on this information.
Inspired by this, we observe that providing CLIP with contextual attributes
improves zero-shot classification and mitigates reliance on spurious features.
We also observe that CLIP itself can reasonably infer the attributes from an
image. With these observations, we propose a training-free, two-step zero-shot
classification method named PerceptionCLIP. Given an image, it first infers
contextual attributes (e.g., background) and then performs object
classification conditioning on them. Our experiments show that PerceptionCLIP
achieves better generalization, group robustness, and better interpretability.
For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by
16.5% on the Waterbirds dataset and by 3.5% on CelebA.