ATTN-FIQA: Interpretierbare aufmerksamkeitsbasierte Gesichtsbildqualitätsbewertung mit Vision-Transformern
ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers
April 21, 2026
Autoren: Guray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Marco Huber, Andrea Atzori, Naser Damer, Fadi Boutros
cs.AI
Zusammenfassung
Face Image Quality Assessment (FIQA) zielt darauf ab, den Erkennungsnutzen von Gesichtsproben zu bewerten und ist für zuverlässige Gesichtserkennungssysteme (FR) unerlässlich. Bisherige Ansätze erfordern rechenintensive Verfahren wie mehrere Vorwärtsdurchläufe, Backpropagation oder zusätzliches Training, und erst neuere Arbeiten konzentrieren sich auf die Verwendung von Vision Transformern. Jüngste Studien haben gezeigt, dass diese Architekturen inhärent als Saliency-Learner fungieren, wobei Aufmerksamkeitsmuster natürlicherweise räumliche Bedeutung kodieren. Diese Arbeit stellt ATTN-FIQA vor, einen neuartigen trainingsfreien Ansatz, der untersucht, ob Pre-Softmax-Aufmerksamkeitswerte aus vortrainierten, auf Vision Transformern basierenden Gesichtserkennungsmodellen als Qualitätsindikatoren dienen können. Wir stellen die Hypothese auf, dass Aufmerksamkeitsmagnituden intrinsisch Qualität kodieren: Hochqualitative Bilder mit diskriminativen Gesichtsmerkmalen ermöglichen starke Query-Key-Übereinstimmungen, die fokussierte Aufmerksamkeitsmuster mit hoher Magnitude erzeugen, während degradierte Bilder diffuse Muster mit niedriger Magnitude generieren. ATTN-FIQA extrahiert Pre-Softmax-Aufmerksamkeitsmatrizen aus dem letzten Transformer-Block, aggregiert Multi-Head-Aufmerksamkeitsinformationen über alle Patches hinweg und berechnet Bildqualitäts-Scores auf Bildebene durch einfache Mittelwertbildung. Der Ansatz erfordert nur einen einzigen Vorwärtsdurchlauf durch vortrainierte Modelle ohne Architekturmodifikationen, Backpropagation oder zusätzliches Training. Durch umfassende Evaluation über acht Benchmark-Datensätze und vier FR-Modelle hinweg zeigt diese Arbeit, dass auf Aufmerksamkeit basierende Qualitätsscores effektiv mit der Gesichtsbildqualität korrelieren und räumliche Interpretierbarkeit bieten, indem sie offenlegen, welche Gesichtsregionen am meisten zur Qualitätsbestimmung beitragen.
English
Face Image Quality Assessment (FIQA) aims to assess the recognition utility of face samples and is essential for reliable face recognition (FR) systems. Existing approaches require computationally expensive procedures such as multiple forward passes, backpropagation, or additional training, and only recent work has focused on the use of Vision Transformers. Recent studies highlighted that these architectures inherently function as saliency learners with attention patterns naturally encoding spatial importance. This work proposes ATTN-FIQA, a novel training-free approach that investigates whether pre-softmax attention scores from pre-trained Vision Transformer-based face recognition models can serve as quality indicators. We hypothesize that attention magnitudes intrinsically encode quality: high-quality images with discriminative facial features enable strong query-key alignments producing focused, high-magnitude attention patterns, while degraded images generate diffuse, low-magnitude patterns. ATTN-FIQA extracts pre-softmax attention matrices from the final transformer block, aggregate multi-head attention information across all patches, and compute image-level quality scores through simple averaging, requiring only a single forward pass through pre-trained models without architectural modifications, backpropagation, or additional training. Through comprehensive evaluation across eight benchmark datasets and four FR models, this work demonstrates that attention-based quality scores effectively correlate with face image quality and provide spatial interpretability, revealing which facial regions contribute most to quality determination.