ViTNT-FIQA: Valutazione della Qualità delle Immagini Facciali Senza Addestramento con Vision Transformer

Abstract

La valutazione della qualità delle immagini facciali (FIQA) è fondamentale per sistemi di riconoscimento facciale affidabili. Gli approcci attuali sfruttano principalmente solo le rappresentazioni dell'ultimo strato, mentre i metodi senza addestramento richiedono multiple passate in avanti o la retropropagazione. Proponiamo ViTNT-FIQA, un approccio senza addestramento che misura la stabilità dell'evoluzione degli embedding di patch attraverso i blocchi intermedi di un Vision Transformer (ViT). Dimostriamo che le immagini facciali di alta qualità presentano traiettorie di raffinamento delle caratteristiche stabili attraverso i blocchi, mentre le immagini degradate mostrano trasformazioni irregolari. Il nostro metodo calcola le distanze euclidee tra gli embedding di patch normalizzati L2 da blocchi transformer consecutivi e li aggrega in punteggi di qualità a livello di immagine. Convalidiamo empiricamente questa correlazione su un dataset sintetico etichettato per qualità con livelli di degrado controllati. A differenza degli approcci esistenti senza addestramento, ViTNT-FIQA richiede solo una singola passata in avanti senza retropropagazione o modifiche architetturali. Attraverso una valutazione estesa su otto benchmark (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), mostriamo che ViTNT-FIQA raggiunge prestazioni competitive con i metodi all'avanguardia, mantenendo al contempo efficienza computazionale e applicabilità immediata a qualsiasi modello di riconoscimento facciale pre-addestrato basato su ViT.

English

Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.

ViTNT-FIQA: Valutazione della Qualità delle Immagini Facciali Senza Addestramento con Vision Transformer

ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers

Abstract

Support