ATTN-FIQA: Valutazione Interpretabile della Qualità delle Immagini Facciali basata su Meccanismi di Attenzione con Vision Transformers

Abstract

La valutazione della qualità delle immagini facciali (FIQA) mira a valutare l'utilità per il riconoscimento dei campioni di volti ed è essenziale per sistemi di riconoscimento facciale (FR) affidabili. Gli approcci esistenti richiedono procedure computazionalmente costose come passaggi in avanti multipli, backpropagation o training aggiuntivo, e solo recentemente il lavoro si è concentrato sull'uso dei Vision Transformer. Studi recenti hanno evidenziato che queste architetture funzionano intrinsecamente come rilevatori di salienza, con pattern di attenzione che codificano naturalmente l'importanza spaziale. Questo lavoro propone ATTN-FIQA, un innovativo approccio senza training che investiga se i punteggi di attenzione pre-softmax da modelli FR pre-addestrati basati su Vision Transformer possano servire come indicatori di qualità. Ipotesizziamo che le magnitudini di attenzione codifichino intrinsecamente la qualità: immagini di alta qualità con caratteristiche facciali discriminative consentono forti allineamenti query-chiave producendo pattern di attenzione focalizzati e ad alta magnitudine, mentre immagini degradate generano pattern diffusi e a bassa magnitudine. ATTN-FIQA estrae le matrici di attenzione pre-softmax dall'ultimo blocco del transformer, aggrega le informazioni di multi-head attention tra tutti i patch e calcola punteggi di qualità a livello di immagine attraverso una semplice media, richiedendo solo un singolo passaggio in avanti attraverso modelli pre-addestrati senza modifiche architetturali, backpropagation o training aggiuntivo. Attraverso una valutazione completa su otto dataset di benchmark e quattro modelli FR, questo lavoro dimostra che i punteggi di qualità basati sull'attenzione correlano efficacemente con la qualità dell'immagine facciale e forniscono interpretabilità spaziale, rivelando quali regioni facciali contribuiscono maggiormente alla determinazione della qualità.

English

Face Image Quality Assessment (FIQA) aims to assess the recognition utility of face samples and is essential for reliable face recognition (FR) systems. Existing approaches require computationally expensive procedures such as multiple forward passes, backpropagation, or additional training, and only recent work has focused on the use of Vision Transformers. Recent studies highlighted that these architectures inherently function as saliency learners with attention patterns naturally encoding spatial importance. This work proposes ATTN-FIQA, a novel training-free approach that investigates whether pre-softmax attention scores from pre-trained Vision Transformer-based face recognition models can serve as quality indicators. We hypothesize that attention magnitudes intrinsically encode quality: high-quality images with discriminative facial features enable strong query-key alignments producing focused, high-magnitude attention patterns, while degraded images generate diffuse, low-magnitude patterns. ATTN-FIQA extracts pre-softmax attention matrices from the final transformer block, aggregate multi-head attention information across all patches, and compute image-level quality scores through simple averaging, requiring only a single forward pass through pre-trained models without architectural modifications, backpropagation, or additional training. Through comprehensive evaluation across eight benchmark datasets and four FR models, this work demonstrates that attention-based quality scores effectively correlate with face image quality and provide spatial interpretability, revealing which facial regions contribute most to quality determination.

ATTN-FIQA: Valutazione Interpretabile della Qualità delle Immagini Facciali basata su Meccanismi di Attenzione con Vision Transformers

ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers

Abstract

Support