ChatPaper.aiChatPaper

ViTNT-FIQA : Évaluation sans apprentissage de la qualité d'image faciale par Transformers Vision

ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers

January 9, 2026
papers.authors: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI

papers.abstract

L'évaluation de la qualité des images faciales (FIQA) est essentielle pour la fiabilité des systèmes de reconnaissance faciale. Les approches actuelles exploitent principalement les représentations de la couche finale, tandis que les méthodes sans entrainement nécessitent de multiples passes avant ou de la rétropropagation. Nous proposons ViTNT-FIQA, une approche sans entrainement qui mesure la stabilité de l'évolution des plongements de patchs à travers les blocs intermédiaires d'un Vision Transformer (ViT). Nous démontrons que les images faciales de haute qualité présentent des trajectoires de raffinement des caractéristiques stables entre les blocs, tandis que les images dégradées présentent des transformations erratiques. Notre méthode calcule les distances euclidiennes entre les plongements de patchs normalisés L2 de blocs de transformateurs consécutifs et les agrège en scores de qualité au niveau de l'image. Nous validons empiriquement cette corrélation sur un ensemble de données synthétiques étiqueté en qualité avec des niveaux de dégradation contrôlés. Contrairement aux approches sans entrainement existantes, ViTNT-FIQA ne nécessite qu'une seule passe avant, sans rétropropagation ni modifications architecturales. Grâce à une évaluation approfondie sur huit benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), nous montrons que ViTNT-FIQA atteint des performances compétitives avec les méthodes de l'état de l'art tout en maintenant une efficacité computationnelle et une applicabilité immédiate à tout modèle de reconnaissance faciale pré-entraîné basé sur ViT.
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.
PDF12January 13, 2026