ViTNT-FIQA: Avaliação da Qualidade de Imagem Facial sem Treinamento com Vision Transformers

Resumo

A Avaliação da Qualidade de Imagens de Rosto (FIQA) é essencial para sistemas confiáveis de reconhecimento facial. As abordagens atuais exploram principalmente apenas representações da camada final, enquanto métodos sem treinamento exigem múltiplas passagens diretas ou retropropagação. Propomos o ViTNT-FIQA, uma abordagem sem treinamento que mede a estabilidade da evolução dos *embeddings* de *patches* através dos blocos intermediários do *Vision Transformer* (ViT). Demonstramos que imagens faciais de alta qualidade exibem trajetórias de refinamento de características estáveis entre os blocos, enquanto imagens degradadas mostram transformações erráticas. Nosso método calcula distâncias euclidianas entre os *embeddings* de *patches* normalizados por L2 de blocos consecutivos do *transformer* e os agrega em escores de qualidade a nível de imagem. Validamos empiricamente esta correlação num conjunto de dados sintético com rótulos de qualidade e níveis controlados de degradação. Diferente das abordagens sem treinamento existentes, o ViTNT-FIQA requer apenas uma única passagem direta, sem retropropagação ou modificações arquiteturais. Através de avaliação extensiva em oito *benchmarks* (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), mostramos que o ViTNT-FIQA alcança desempenho competitivo com os métodos estado da arte, mantendo eficiência computacional e aplicabilidade imediata a qualquer modelo de reconhecimento facial pré-treinado baseado em ViT.

English

Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.