Più Contesto, Meno Distrazione: Classificazione Visiva attraverso l'Inferenza e il Condizionamento sugli Attributi Contestuali

Abstract

CLIP, come modello fondamentale di linguaggio visivo, è ampiamente utilizzato nella classificazione di immagini zero-shot grazie alla sua capacità di comprendere vari concetti visivi e descrizioni in linguaggio naturale. Tuttavia, come sfruttare appieno le capacità di comprensione senza precedenti, simili a quelle umane, di CLIP per ottenere una migliore classificazione zero-shot rimane una questione aperta. Questo articolo trae ispirazione dal processo di percezione visiva umana: una visione moderna delle neuroscienze suggerisce che, nel classificare un oggetto, gli esseri umani deducono prima gli attributi indipendenti dalla classe (ad esempio, lo sfondo e l'orientamento) che aiutano a separare l'oggetto in primo piano dallo sfondo, e poi prendono decisioni basate su queste informazioni. Ispirati da ciò, osserviamo che fornire a CLIP attributi contestuali migliora la classificazione zero-shot e mitiga la dipendenza da caratteristiche spurie. Osserviamo inoltre che CLIP stesso può dedurre ragionevolmente gli attributi da un'immagine. Con queste osservazioni, proponiamo un metodo di classificazione zero-shot in due fasi, senza addestramento, denominato PerceptionCLIP. Data un'immagine, esso deduce prima gli attributi contestuali (ad esempio, lo sfondo) e poi esegue la classificazione dell'oggetto condizionandoli. I nostri esperimenti dimostrano che PerceptionCLIP raggiunge una migliore generalizzazione, robustezza di gruppo e una migliore interpretabilità. Ad esempio, PerceptionCLIP con ViT-L/14 migliora l'accuratezza del gruppo peggiore del 16,5% sul dataset Waterbirds e del 3,5% su CelebA.

English

CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.

Più Contesto, Meno Distrazione: Classificazione Visiva attraverso l'Inferenza e il Condizionamento sugli Attributi Contestuali

More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

Abstract

Support