概念誘導型ファインチューニング:ViTのスプリアス相関からの脱却によるロバスト性向上
Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness
March 9, 2026
著者: Yehonatan Elisha, Oren Barkan, Noam Koenigstein
cs.AI
要旨
Vision Transformer (ViT) は、意味的に有意義な特徴ではなく、背景の手がかりなどの擬似的相関に依存するため、分布シフトの下で性能が低下することが多い。既存の正則化手法は、通常、単純な前景-背景マスクに依存しており、オブジェクトを定義する細粒度の意味的概念(例:「鳥」に対する「長いくちばし」や「翼」)を捉えることができない。その結果、これらの手法は分布シフトに対する頑健性が限られている。この限界に対処するため、我々はモデルの推論を概念レベルの意味論に向けて誘導する新しいファインチューニングフレームワークを提案する。本手法は、モデルの内部的な関連性マップを、空間的に接地された概念マスクに整合するように最適化する。これらのマスクは、手動のアノテーションを必要とせず自動的に生成される:クラス関連概念は、まずLLMベースのラベル不要手法を用いて提案され、次にVLMを用いてセグメンテーションされる。ファインチューニングの目的は、関連性をこれらの概念領域に整合させると同時に、擬似的な背景領域への注目を抑制することである。特筆すべきは、このプロセスがごく少数の画像セットのみを必要とし、データセットクラスの半分を使用することである。5つの分布外ベンチマークにおける大規模な実験により、本手法が複数のViTベースモデルにおいて頑健性を向上させることを実証した。さらに、得られた関連性マップが意味的オブジェクトパーツとの強い整合性を示し、より頑健で解釈可能な視覚モデルへのスケーラブルな道筋を提供することを示す。最後に、概念誘導マスクが従来のセグメンテーションマップよりもモデルの頑健性に対してより効果的な監督を提供することを確認し、我々の中心的な仮説を支持する。
English
Vision Transformers (ViTs) often degrade under distribution shifts because they rely on spurious correlations, such as background cues, rather than semantically meaningful features. Existing regularization methods, typically relying on simple foreground-background masks, which fail to capture the fine-grained semantic concepts that define an object (e.g., ``long beak'' and ``wings'' for a ``bird''). As a result, these methods provide limited robustness to distribution shifts. To address this limitation, we introduce a novel finetuning framework that steers model reasoning toward concept-level semantics. Our approach optimizes the model's internal relevance maps to align with spatially grounded concept masks. These masks are generated automatically, without manual annotation: class-relevant concepts are first proposed using an LLM-based, label-free method, and then segmented using a VLM. The finetuning objective aligns relevance with these concept regions while simultaneously suppressing focus on spurious background areas. Notably, this process requires only a minimal set of images and uses half of the dataset classes. Extensive experiments on five out-of-distribution benchmarks demonstrate that our method improves robustness across multiple ViT-based models. Furthermore, we show that the resulting relevance maps exhibit stronger alignment with semantic object parts, offering a scalable path toward more robust and interpretable vision models. Finally, we confirm that concept-guided masks provide more effective supervision for model robustness than conventional segmentation maps, supporting our central hypothesis.