Mais Contexto, Menos Distração: Classificação Visual por Inferência e Condicionamento em Atributos Contextuais

Resumo

O CLIP, como um modelo fundamental de linguagem visual, é amplamente utilizado na classificação de imagens zero-shot devido à sua capacidade de compreender diversos conceitos visuais e descrições em linguagem natural. No entanto, como aproveitar plenamente as capacidades sem precedentes de compreensão semelhante à humana do CLIP para alcançar uma melhor classificação zero-shot ainda é uma questão em aberto. Este artigo se inspira no processo de percepção visual humana: uma visão moderna da neurociência sugere que, ao classificar um objeto, os humanos primeiro inferem seus atributos independentes da classe (por exemplo, fundo e orientação), que ajudam a separar o objeto em primeiro plano do fundo, e então tomam decisões com base nessas informações. Inspirados por isso, observamos que fornecer ao CLIP atributos contextuais melhora a classificação zero-shot e mitiga a dependência de características espúrias. Também observamos que o próprio CLIP pode inferir razoavelmente os atributos de uma imagem. Com essas observações, propomos um método de classificação zero-shot em duas etapas e sem treinamento, chamado PerceptionCLIP. Dada uma imagem, ele primeiro infere atributos contextuais (por exemplo, fundo) e, em seguida, realiza a classificação do objeto condicionada a eles. Nossos experimentos mostram que o PerceptionCLIP alcança melhor generalização, robustez de grupo e maior interpretabilidade. Por exemplo, o PerceptionCLIP com ViT-L/14 melhora a precisão do pior grupo em 16,5% no conjunto de dados Waterbirds e em 3,5% no CelebA.

English

CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.

Mais Contexto, Menos Distração: Classificação Visual por Inferência e Condicionamento em Atributos Contextuais

More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

Resumo

Support