ViTNT-FIQA: Trainingsvrije beoordeling van gezichtsafbeeldingskwaliteit met Vision Transformers
ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers
January 9, 2026
Auteurs: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI
Samenvatting
Face Image Quality Assessment (FIQA) is essentieel voor betrouwbare gezichtsherkenningssystemen. Huidige benaderingen benutten voornamelijk alleen eindlaagrepresentaties, terwijl trainvrije methoden meerdere voorwaartse passes of backpropagatie vereisen. Wij stellen ViTNT-FIQA voor, een trainvrije aanpak die de stabiliteit meet van de evolutie van patch-embeddingen over tussenliggende Vision Transformer (ViT) blokken. Wij tonen aan dat hoogwaardige gezichtsafbeeldingen stabiele feature-verfijnings trajecten over de blokken vertonen, terwijl gedegradeerde afbeeldingen onregelmatige transformaties laten zien. Onze methode berekent Euclidische afstanden tussen L2-genormaliseerde patch-embeddingen van opeenvolgende transformerblokken en aggregeert deze tot kwaliteitsscores op afbeeldingsniveau. Wij valideren dit verband empirisch op een synthetische dataset met gecontroleerde degradatieniveaus en gelabelde kwaliteit. In tegenstelling tot bestaande trainvrije benaderingen, vereist ViTNT-FIQA slechts een enkele voorwaartse pass, zonder backpropagatie of aanpassingen aan de architectuur. Door middel van uitgebreide evaluatie op acht benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C) tonen wij aan dat ViTNT-FIQA competitieve prestaties bereikt met state-of-the-art methoden, waarbij reken efficiëntie en directe toepasbaarheid op elk vooraf getraind ViT-gebaseerd gezichtsherkenningsmodel behouden blijven.
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.