ATTN-FIQA: Avaliação Interpretável da Qualidade de Imagens de Rosto Baseada em Atenção com Transformers de Visão

Resumo

A Avaliação da Qualidade de Imagens de Rosto (FIQA) tem como objetivo avaliar a utilidade para reconhecimento de amostras faciais e é essencial para sistemas de reconhecimento facial (FR) confiáveis. As abordagens existentes requerem procedimentos computacionalmente dispendiosos, como múltiplas passagens diretas, retropropagação ou treinamento adicional, e apenas trabalhos recentes focaram no uso de Vision Transformers. Estudos recentes destacaram que essas arquiteturas funcionam inerentemente como aprendizes de saliência, com padrões de atenção codificando naturalmente a importância espacial. Este trabalho propõe o ATTN-FIQA, uma nova abordagem livre de treinamento que investiga se as pontuações de atenção pré-softmax de modelos de reconhecimento facial baseados em Vision Transformer pré-treinados podem servir como indicadores de qualidade. Nossa hipótese é que as magnitudes de atenção codificam intrinsecamente a qualidade: imagens de alta qualidade com características faciais discriminativas permitem alinhamentos fortes entre consulta e chave, produzindo padrões de atenção focados e de alta magnitude, enquanto imagens degradadas geram padrões difusos e de baixa magnitude. O ATTN-FIQA extrai matrizes de atenção pré-softmax do bloco final do transformer, agrega informações de atenção multi-head em todos os patches e calcula pontuações de qualidade em nível de imagem por meio de uma simples média, exigindo apenas uma única passagem direta através de modelos pré-treinados, sem modificações arquiteturais, retropropagação ou treinamento adicional. Por meio de uma avaliação abrangente em oito conjuntos de dados de referência e quatro modelos de FR, este trabalho demonstra que as pontuações de qualidade baseadas em atenção correlacionam-se efetivamente com a qualidade da imagem facial e fornecem interpretabilidade espacial, revelando quais regiões faciais contribuem mais para a determinação da qualidade.

English

Face Image Quality Assessment (FIQA) aims to assess the recognition utility of face samples and is essential for reliable face recognition (FR) systems. Existing approaches require computationally expensive procedures such as multiple forward passes, backpropagation, or additional training, and only recent work has focused on the use of Vision Transformers. Recent studies highlighted that these architectures inherently function as saliency learners with attention patterns naturally encoding spatial importance. This work proposes ATTN-FIQA, a novel training-free approach that investigates whether pre-softmax attention scores from pre-trained Vision Transformer-based face recognition models can serve as quality indicators. We hypothesize that attention magnitudes intrinsically encode quality: high-quality images with discriminative facial features enable strong query-key alignments producing focused, high-magnitude attention patterns, while degraded images generate diffuse, low-magnitude patterns. ATTN-FIQA extracts pre-softmax attention matrices from the final transformer block, aggregate multi-head attention information across all patches, and compute image-level quality scores through simple averaging, requiring only a single forward pass through pre-trained models without architectural modifications, backpropagation, or additional training. Through comprehensive evaluation across eight benchmark datasets and four FR models, this work demonstrates that attention-based quality scores effectively correlate with face image quality and provide spatial interpretability, revealing which facial regions contribute most to quality determination.

ATTN-FIQA: Avaliação Interpretável da Qualidade de Imagens de Rosto Baseada em Atenção com Transformers de Visão

ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers

Resumo

Support