ChatPaper.aiChatPaper

Más contexto, menos distracción: Clasificación visual mediante la inferencia y condicionamiento de atributos contextuales

More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

August 2, 2023
Autores: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
cs.AI

Resumen

CLIP, como modelo fundamental de lenguaje visual, es ampliamente utilizado en la clasificación de imágenes zero-shot debido a su capacidad para comprender diversos conceptos visuales y descripciones en lenguaje natural. Sin embargo, cómo aprovechar plenamente las capacidades de comprensión sin precedentes, similares a las humanas, de CLIP para lograr una mejor clasificación zero-shot sigue siendo una pregunta abierta. Este artículo se inspira en el proceso de percepción visual humana: una visión moderna de la neurociencia sugiere que, al clasificar un objeto, los humanos primero infieren sus atributos independientes de la clase (por ejemplo, fondo y orientación) que ayudan a separar el objeto en primer plano del fondo, y luego toman decisiones basadas en esta información. Inspirados por esto, observamos que proporcionar a CLIP atributos contextuales mejora la clasificación zero-shot y mitiga la dependencia de características espurias. También observamos que CLIP mismo puede inferir razonablemente los atributos de una imagen. Con estas observaciones, proponemos un método de clasificación zero-shot en dos pasos y sin entrenamiento, llamado PerceptionCLIP. Dada una imagen, primero infiere atributos contextuales (por ejemplo, fondo) y luego realiza la clasificación del objeto condicionada a ellos. Nuestros experimentos muestran que PerceptionCLIP logra una mejor generalización, robustez grupal y mayor interpretabilidad. Por ejemplo, PerceptionCLIP con ViT-L/14 mejora la precisión del peor grupo en un 16.5% en el conjunto de datos Waterbirds y en un 3.5% en CelebA.
English
CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
PDF80December 15, 2024