ViTNT-FIQA:ビジョントランスフォーマーを用いたトレーニング不要の顔画像品質評価
ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers
January 9, 2026
著者: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI
要旨
顔画像品質評価(FIQA)は信頼性の高い顔認識システムにとって不可欠である。現在の手法は主に最終層の表現のみを利用しており、トレーニング不要な手法では複数の順伝搬や誤差逆伝搬を必要とする。我々は、中間Vision Transformer(ViT)ブロック間におけるパッチ埋め込みの進化の安定性を測定する、トレーニング不要な手法ViTNT-FIQAを提案する。高品質な顔画像はブロック間で安定した特徴洗練の軌跡を示す一方、劣化画像では不規則な変換が見られることを実証する。本手法は、連続するトランスフォーマーブロックから得られるL2正規化されたパッチ埋め込み間のユークリッド距離を計算し、それらを画像レベルの品質スコアに集約する。この相関関係を、制御された劣化レベルを持つ品質ラベル付き合成データセットを用いて実証的に検証する。既存のトレーニング不要な手法とは異なり、ViTNT-FIQAは誤差逆伝搬やアーキテクチャ変更を必要とせず、単一の順伝搬のみで動作する。8つのベンチマーク(LFW、AgeDB-30、CFP-FP、CALFW、Adience、CPLFW、XQLFW、IJB-C)における広範な評価を通じて、ViTNT-FIQAが計算効率を維持し、任意の事前学習済みViTベースの顔認識モデルに即時適用可能であると同時に、最新手法と競合する性能を達成することを示す。
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.