ChatPaper.aiChatPaper

Больше контекста, меньше отвлечений: визуальная классификация через вывод и учет контекстуальных атрибутов

More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

August 2, 2023
Авторы: Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang
cs.AI

Аннотация

CLIP, как фундаментальная модель для обработки визуальной и языковой информации, широко используется в задачах классификации изображений в условиях отсутствия обучающих данных (zero-shot) благодаря своей способности понимать различные визуальные концепции и естественно-языковые описания. Однако вопрос о том, как полностью раскрыть беспрецедентные, человеко-подобные способности CLIP для достижения лучших результатов в zero-shot классификации, остается открытым. В данной работе мы черпаем вдохновение из процесса визуального восприятия человека: современные исследования в нейронауках предполагают, что при классификации объекта человек сначала выводит его атрибуты, не зависящие от класса (например, фон и ориентация), что помогает отделить объект переднего плана от фона, а затем принимает решение на основе этой информации. Вдохновленные этим, мы обнаруживаем, что предоставление CLIP контекстных атрибутов улучшает zero-shot классификацию и снижает зависимость от ложных признаков. Мы также отмечаем, что CLIP способен самостоятельно разумно выводить атрибуты из изображения. На основе этих наблюдений мы предлагаем метод zero-shot классификации без обучения, состоящий из двух этапов, под названием PerceptionCLIP. Для заданного изображения он сначала выводит контекстные атрибуты (например, фон), а затем выполняет классификацию объекта с учетом этих атрибутов. Наши эксперименты показывают, что PerceptionCLIP демонстрирует лучшую обобщаемость, устойчивость к группам и интерпретируемость. Например, PerceptionCLIP с архитектурой ViT-L/14 улучшает точность на худшей группе на 16,5% для набора данных Waterbirds и на 3,5% для набора данных CelebA.
English
CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
PDF80December 15, 2024