Più Contesto, Meno Distrazione: Classificazione Visiva attraverso l'Inferenza e il Condizionamento sugli Attributi Contestuali
More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes
August 2, 2023
Autori: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
cs.AI
Abstract
CLIP, come modello fondamentale di linguaggio visivo, è ampiamente utilizzato nella classificazione di immagini zero-shot grazie alla sua capacità di comprendere vari concetti visivi e descrizioni in linguaggio naturale. Tuttavia, come sfruttare appieno le capacità di comprensione senza precedenti, simili a quelle umane, di CLIP per ottenere una migliore classificazione zero-shot rimane una questione aperta. Questo articolo trae ispirazione dal processo di percezione visiva umana: una visione moderna delle neuroscienze suggerisce che, nel classificare un oggetto, gli esseri umani deducono prima gli attributi indipendenti dalla classe (ad esempio, lo sfondo e l'orientamento) che aiutano a separare l'oggetto in primo piano dallo sfondo, e poi prendono decisioni basate su queste informazioni. Ispirati da ciò, osserviamo che fornire a CLIP attributi contestuali migliora la classificazione zero-shot e mitiga la dipendenza da caratteristiche spurie. Osserviamo inoltre che CLIP stesso può dedurre ragionevolmente gli attributi da un'immagine. Con queste osservazioni, proponiamo un metodo di classificazione zero-shot in due fasi, senza addestramento, denominato PerceptionCLIP. Data un'immagine, esso deduce prima gli attributi contestuali (ad esempio, lo sfondo) e poi esegue la classificazione dell'oggetto condizionandoli. I nostri esperimenti dimostrano che PerceptionCLIP raggiunge una migliore generalizzazione, robustezza di gruppo e una migliore interpretabilità. Ad esempio, PerceptionCLIP con ViT-L/14 migliora l'accuratezza del gruppo peggiore del 16,5% sul dataset Waterbirds e del 3,5% su CelebA.
English
CLIP, as a foundational vision language model, is widely used in zero-shot
image classification due to its ability to understand various visual concepts
and natural language descriptions. However, how to fully leverage CLIP's
unprecedented human-like understanding capabilities to achieve better zero-shot
classification is still an open question. This paper draws inspiration from the
human visual perception process: a modern neuroscience view suggests that in
classifying an object, humans first infer its class-independent attributes
(e.g., background and orientation) which help separate the foreground object
from the background, and then make decisions based on this information.
Inspired by this, we observe that providing CLIP with contextual attributes
improves zero-shot classification and mitigates reliance on spurious features.
We also observe that CLIP itself can reasonably infer the attributes from an
image. With these observations, we propose a training-free, two-step zero-shot
classification method named PerceptionCLIP. Given an image, it first infers
contextual attributes (e.g., background) and then performs object
classification conditioning on them. Our experiments show that PerceptionCLIP
achieves better generalization, group robustness, and better interpretability.
For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by
16.5% on the Waterbirds dataset and by 3.5% on CelebA.