Ajuste Fino Orientado por Conceitos: Direcionando ViTs para Longe de Correlações Espúrias para Melhorar a Robustez

Resumo

Os Vision Transformers (ViTs) frequentemente degradam-se sob mudanças de distribuição porque dependem de correlações espúrias, como pistas de fundo, em vez de características semanticamente significativas. Os métodos de regularização existentes, que geralmente dependem de máscaras simples de primeiro plano e fundo, falham em capturar os conceitos semânticos de granularidade fina que definem um objeto (por exemplo, "bico longo" e "asas" para um "pássaro"). Consequentemente, esses métodos oferecem robustez limitada a mudanças de distribuição. Para superar esta limitação, introduzimos uma nova estrutura de *finetuning* que direciona o raciocínio do modelo para semântica a nível conceptual. A nossa abordagem otimiza os mapas de relevância internos do modelo para se alinharem com máscaras conceptuais espacialmente fundamentadas. Estas máscaras são geradas automaticamente, sem anotação manual: os conceitos relevantes para a classe são primeiro propostos usando um método baseado em LLM e sem *labels*, e depois segmentados usando um VLM. O objetivo do *finetuning* é alinhar a relevância com estas regiões conceptuais, suprimindo simultaneamente o foco em áreas de fundo espúrias. Notavelmente, este processo requer apenas um conjunto mínimo de imagens e utiliza metade das classes do conjunto de dados. Extensas experiências em cinco *benchmarks* de distribuição externa demonstram que o nosso método melhora a robustez em vários modelos baseados em ViT. Além disso, mostramos que os mapas de relevância resultantes exibem um alinhamento mais forte com partes semânticas de objetos, oferecendo um caminho escalável para modelos de visão mais robustos e interpretáveis. Finalmente, confirmamos que as máscaras guiadas por conceitos fornecem uma supervisão mais eficaz para a robustez do modelo do que os mapas de segmentação convencionais, apoiando a nossa hipótese central.

English

Vision Transformers (ViTs) often degrade under distribution shifts because they rely on spurious correlations, such as background cues, rather than semantically meaningful features. Existing regularization methods, typically relying on simple foreground-background masks, which fail to capture the fine-grained semantic concepts that define an object (e.g., ``long beak'' and ``wings'' for a ``bird''). As a result, these methods provide limited robustness to distribution shifts. To address this limitation, we introduce a novel finetuning framework that steers model reasoning toward concept-level semantics. Our approach optimizes the model's internal relevance maps to align with spatially grounded concept masks. These masks are generated automatically, without manual annotation: class-relevant concepts are first proposed using an LLM-based, label-free method, and then segmented using a VLM. The finetuning objective aligns relevance with these concept regions while simultaneously suppressing focus on spurious background areas. Notably, this process requires only a minimal set of images and uses half of the dataset classes. Extensive experiments on five out-of-distribution benchmarks demonstrate that our method improves robustness across multiple ViT-based models. Furthermore, we show that the resulting relevance maps exhibit stronger alignment with semantic object parts, offering a scalable path toward more robust and interpretable vision models. Finally, we confirm that concept-guided masks provide more effective supervision for model robustness than conventional segmentation maps, supporting our central hypothesis.

Ajuste Fino Orientado por Conceitos: Direcionando ViTs para Longe de Correlações Espúrias para Melhorar a Robustez

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Resumo

Support