ATTN-FIQA: Evaluación Interpretable de la Calidad de Imágenes de Rostros Basada en Atención con Transformadores de Visión

Resumen

La Evaluación de la Calidad de Imágenes de Rostro (FIQA) tiene como objetivo evaluar la utilidad de reconocimiento de muestras faciales y es esencial para sistemas de reconocimiento facial (FR) confiables. Los enfoques existentes requieren procedimientos computacionalmente costosos, como múltiples pasadas hacia adelante, retropropagación o entrenamiento adicional, y solo trabajos recientes se han centrado en el uso de Vision Transformers. Estudios recientes destacaron que estas arquitecturas funcionan inherentemente como aprendices de prominencia, con patrones de atención que codifican naturalmente la importancia espacial. Este trabajo propone ATTN-FIQA, un novedoso enfoque libre de entrenamiento que investiga si las puntuaciones de atención pre-softmax de modelos de reconocimiento facial basados en Vision Transformers preentrenados pueden servir como indicadores de calidad. Nuestra hipótesis es que las magnitudes de atención codifican intrínsecamente la calidad: las imágenes de alta calidad con características faciales discriminativas permiten fuertes alineaciones consulta-clave produciendo patrones de atención enfocados y de alta magnitud, mientras que las imágenes degradadas generan patrones difusos y de baja magnitud. ATTN-FIQA extrae matrices de atención pre-softmax del bloque transformador final, agrega información de atención multi-cabezal a través de todos los parches y calcula puntuaciones de calidad a nivel de imagen mediante promedios simples, requiriendo solo una única pasada hacia adelante a través de modelos preentrenados sin modificaciones arquitectónicas, retropropagación o entrenamiento adicional. Mediante una evaluación exhaustiva en ocho conjuntos de datos de referencia y cuatro modelos de FR, este trabajo demuestra que las puntuaciones de calidad basadas en atención se correlacionan efectivamente con la calidad de la imagen facial y proporcionan interpretabilidad espacial, revelando qué regiones faciales contribuyen más a la determinación de la calidad.

English

Face Image Quality Assessment (FIQA) aims to assess the recognition utility of face samples and is essential for reliable face recognition (FR) systems. Existing approaches require computationally expensive procedures such as multiple forward passes, backpropagation, or additional training, and only recent work has focused on the use of Vision Transformers. Recent studies highlighted that these architectures inherently function as saliency learners with attention patterns naturally encoding spatial importance. This work proposes ATTN-FIQA, a novel training-free approach that investigates whether pre-softmax attention scores from pre-trained Vision Transformer-based face recognition models can serve as quality indicators. We hypothesize that attention magnitudes intrinsically encode quality: high-quality images with discriminative facial features enable strong query-key alignments producing focused, high-magnitude attention patterns, while degraded images generate diffuse, low-magnitude patterns. ATTN-FIQA extracts pre-softmax attention matrices from the final transformer block, aggregate multi-head attention information across all patches, and compute image-level quality scores through simple averaging, requiring only a single forward pass through pre-trained models without architectural modifications, backpropagation, or additional training. Through comprehensive evaluation across eight benchmark datasets and four FR models, this work demonstrates that attention-based quality scores effectively correlate with face image quality and provide spatial interpretability, revealing which facial regions contribute most to quality determination.

ATTN-FIQA: Evaluación Interpretable de la Calidad de Imágenes de Rostros Basada en Atención con Transformadores de Visión

ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers

Resumen

Support