EX-FIQA: Sfruttamento delle Rappresentazioni Intermedie delle Uscite Anticipate dai Vision Transformer per la Valutazione della Qualità delle Immagini Facciali
EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment
April 21, 2026
Autori: Guray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Andrea Atzori, Fadi Boutros, Naser Damer
cs.AI
Abstract
La valutazione della qualità delle immagini facciali è fondamentale per sistemi affidabili di riconoscimento facciale, tuttavia gli approcci esistenti basati su Vision Transformer si basano esclusivamente su rappresentazioni dell'ultimo livello, ignorando le informazioni rilevanti per la qualità catturate a profondità intermedie della rete. Questo articolo presenta la prima investigazione completa di come le rappresentazioni intermedie all'interno dei ViT contribuiscano alla valutazione della qualità facciale attraverso meccanismi di early exit e strategie di fusione dei punteggi. Analizziamo sistematicamente tutti e dodici i blocchi transformer delle architetture ViT-FIQA, dimostrando che diverse profondità catturano informazioni distinte e complementari relative alla qualità, come evidenziato dai diversi pattern di attenzione e caratteristiche prestazionali attraverso i livelli della rete. Proponiamo un framework di fusione dei punteggi che combina le previsioni di qualità di più blocchi transformer senza modifiche architetturali o training aggiuntivo. La nostra analisi degli early exit rivela compromessi ottimali tra prestazioni ed efficienza, consentendo significativi risparmi computazionali mantenendo prestazioni competitive. Attraverso una valutazione estesa su otto dataset di benchmark utilizzando quattro modelli di riconoscimento facciale, dimostriamo che la nostra strategia di fusione migliora gli approcci a singola uscita. Il nostro approccio proposto di fusione della qualità impiega una media ponderata per profondità che assegna un'importanza progressivamente maggiore ai blocchi transformer più profondi, raggiungendo le migliori prestazioni di valutazione della qualità sfruttando efficacemente la natura gerarchica dell'apprendimento delle feature nei ViT. Il nostro lavoro mette in discussione la convinzione convenzionale che solo le feature profonde siano importanti per l'analisi facciale, rivelando che le rappresentazioni intermedie contengono informazioni preziose per la valutazione della qualità. Il framework proposto offre vantaggi pratici per i sistemi biometrici reali consentendo calcoli adattivi basati sui vincoli delle risorse mantenendo capacità competitive di valutazione della qualità.
English
Face Image Quality Assessment is crucial for reliable face recognition systems, yet existing Vision Transformer-based approaches rely exclusively on final-layer representations, ignoring quality-relevant information captured at intermediate network depths. This paper presents the first comprehensive investigation of how intermediate representations within ViTs contribute to face quality assessment through early exit mechanisms and score fusion strategies. We systematically analyze all twelve transformer blocks of ViT-FIQA architectures, demonstrating that different depths capture distinct and complementary quality-relevant information, as evidenced by varying attention patterns and performance characteristics across network layers. We propose a score fusion framework that combines quality predictions from multiple transformer blocks without architectural modifications or additional training. Our early exit analysis reveals optimal performance-efficiency trade-offs, enabling significant computational savings while maintaining competitive performance. Through extensive evaluation across eight benchmark datasets using four FR models, we demonstrate that our fusion strategy improves upon single-exit approaches. Our proposed quality fusion approach employs depth-weighted averaging that assigns progressively higher importance to deeper transformer blocks, achieving the best quality assessment performance by effectively leveraging the hierarchical nature of feature learning in ViTs. Our work challenges the conventional wisdom that only deep features matter for face analysis, revealing that intermediate representations contain valuable information for quality assessment. The proposed framework offers practical benefits for real-world biometric systems by enabling adaptive computation based on resource constraints while maintaining competitive quality assessment capabilities.