ViTNT-FIQA: Vision Transformer 기반의 학습 없이 진행하는 얼굴 이미지 품질 평가
ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers
January 9, 2026
저자: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI
초록
얼굴 이미지 품질 평가(FIQA)는 신뢰할 수 있는 얼굴 인식 시스템에 필수적입니다. 기존 접근법은 주로 최종 계층 표현만 활용하는 반면, 훈련이 필요 없는 방법들은 여러 번의 순전파나 역전파를 요구합니다. 본 연구에서는 중간 Vision Transformer(ViT) 블록 간의 패치 임베딩 진화 안정성을 측정하는 훈련 없는 방법인 ViTNT-FIQA를 제안합니다. 고품질 얼굴 이미지는 블록 간에 안정적인 특징 정제 궤적을 보이는 반면, 열화된 이미지는 불규칙한 변환을 나타냄을 입증합니다. 우리의 방법은 연속된 트랜스포머 블록의 L2 정규화된 패치 임베딩 간 유클리드 거리를 계산하고 이를 이미지 수준의 품질 점수로 집계합니다. 통제된 열화 수준을 가진 품질 라벨링 합성 데이터셋에서 이 상관관계를 실증적으로 검증합니다. 기존 훈련 없는 접근법과 달리, ViTNT-FIQA는 역전파나 구조 수정 없이 단일 순전파만으로 수행됩니다. 8개 벤치마크(LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C)에 대한 광범위한 평가를 통해 ViTNT-FIQA가 계산 효율성과 사전 훈련된 ViT 기반 얼굴 인식 모델에의 즉각적인 적용 가능성을 유지하면서 최신 방법들과 경쟁력 있는 성능을 달성함을 보여줍니다.
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.