Ajuste Fino Guiado por Conceptos: Dirigiendo a los Transformadores de Visión lejos de Correlaciones Espurias para Mejorar la Robustez
Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness
March 9, 2026
Autores: Yehonatan Elisha, Oren Barkan, Noam Koenigstein
cs.AI
Resumen
Los Transformadores de Visión (ViT) a menudo se degradan ante cambios de distribución porque dependen de correlaciones espurias, como las claves contextuales del fondo, en lugar de características semánticamente significativas. Los métodos de regularización existentes, que suelen basarse en máscaras simples de primer plano-fondo, no logran capturar los conceptos semánticos de grano fino que definen un objeto (por ejemplo, "pico largo" y "alas" para un "pájaro"). Como resultado, estos métodos ofrecen una robustez limitada frente a cambios de distribución. Para abordar esta limitación, presentamos un novedoso marco de ajuste fino que orienta el razonamiento del modelo hacia semánticas a nivel conceptual. Nuestro enfoque optimiza los mapas de relevancia internos del modelo para alinearlos con máscaras conceptuales espacialmente fundamentadas. Estas máscaras se generan automáticamente, sin anotación manual: primero se proponen conceptos relevantes para la clase utilizando un método basado en LLM y sin etiquetas, y luego se segmentan utilizando un VLM. El objetivo del ajuste fino alinea la relevancia con estas regiones conceptuales mientras suprime simultáneamente el enfoque en áreas espurias del fondo. Cabe destacar que este proceso requiere solo un conjunto mínimo de imágenes y utiliza la mitad de las clases del conjunto de datos. Experimentos exhaustivos en cinco benchmarks de distribución externa demuestran que nuestro método mejora la robustez en múltiples modelos basados en ViT. Además, mostramos que los mapas de relevancia resultantes exhiben una alineación más fuerte con las partes semánticas del objeto, ofreciendo un camino escalable hacia modelos de visión más robustos e interpretables. Finalmente, confirmamos que las máscaras guiadas por conceptos proporcionan una supervisión más efectiva para la robustez del modelo que los mapas de segmentación convencionales, respaldando nuestra hipótesis central.
English
Vision Transformers (ViTs) often degrade under distribution shifts because they rely on spurious correlations, such as background cues, rather than semantically meaningful features. Existing regularization methods, typically relying on simple foreground-background masks, which fail to capture the fine-grained semantic concepts that define an object (e.g., ``long beak'' and ``wings'' for a ``bird''). As a result, these methods provide limited robustness to distribution shifts. To address this limitation, we introduce a novel finetuning framework that steers model reasoning toward concept-level semantics. Our approach optimizes the model's internal relevance maps to align with spatially grounded concept masks. These masks are generated automatically, without manual annotation: class-relevant concepts are first proposed using an LLM-based, label-free method, and then segmented using a VLM. The finetuning objective aligns relevance with these concept regions while simultaneously suppressing focus on spurious background areas. Notably, this process requires only a minimal set of images and uses half of the dataset classes. Extensive experiments on five out-of-distribution benchmarks demonstrate that our method improves robustness across multiple ViT-based models. Furthermore, we show that the resulting relevance maps exhibit stronger alignment with semantic object parts, offering a scalable path toward more robust and interpretable vision models. Finally, we confirm that concept-guided masks provide more effective supervision for model robustness than conventional segmentation maps, supporting our central hypothesis.