ChatPaper.aiChatPaper

ViTNT-FIQA: Evaluación de Calidad de Imágenes de Rostros Sin Entrenamiento con Transformadores de Visión

ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers

January 9, 2026
Autores: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI

Resumen

La Evaluación de la Calidad de Imágenes de Rostros (FIQA) es esencial para sistemas de reconocimiento facial confiables. Los enfoques actuales explotan principalmente solo las representaciones de la capa final, mientras que los métodos que no requieren entrenamiento necesitan múltiples pasadas hacia adelante o retropropagación. Proponemos ViTNT-FIQA, un enfoque que no requiere entrenamiento y que mide la estabilidad de la evolución de los *embeddings* de parches a través de los bloques intermedios de los Transformadores de Visión (ViT). Demostramos que las imágenes faciales de alta calidad exhiben trayectorias de refinamiento de características estables a lo largo de los bloques, mientras que las imágenes degradadas muestran transformaciones erráticas. Nuestro método calcula las distancias euclidianas entre los *embeddings* de parches normalizados por L2 de bloques de transformadores consecutivos y los agrega en puntuaciones de calidad a nivel de imagen. Validamos empíricamente esta correlación en un conjunto de datos sintético etiquetado por calidad con niveles de degradación controlados. A diferencia de los enfoques existentes que no requieren entrenamiento, ViTNT-FIQA requiere solo una única pasada hacia adelante, sin retropropagación o modificaciones arquitectónicas. Mediante una evaluación exhaustiva en ocho benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), mostramos que ViTNT-FIQA logra un rendimiento competitivo con los métodos de vanguardia, manteniendo al mismo tiempo la eficiencia computacional y la aplicabilidad inmediata a cualquier modelo de reconocimiento facial preentrenado basado en ViT.
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.
PDF12January 13, 2026