EX-FIQA: Aproveitamento de Representações Intermediárias de Saída Antecipada em Transformadores de Visão para Avaliação da Qualidade de Imagens de Rosto
EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment
April 21, 2026
Autores: Guray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Andrea Atzori, Fadi Boutros, Naser Damer
cs.AI
Resumo
A Avaliação da Qualidade de Imagens de Rosto é crucial para sistemas confiáveis de reconhecimento facial, no entanto, as abordagens existentes baseadas em Vision Transformers dependem exclusivamente de representações da camada final, ignorando informações relevantes para a qualidade capturadas em profundidades intermediárias da rede. Este artigo apresenta a primeira investigação abrangente sobre como as representações intermediárias dentro dos ViTs contribuem para a avaliação da qualidade facial por meio de mecanismos de saída antecipada e estratégias de fusão de scores. Analisamos sistematicamente todos os doze blocos do transformador das arquiteturas ViT-FIQA, demonstrando que diferentes profundidades capturam informações distintas e complementares relevantes para a qualidade, conforme evidenciado por padrões de atenção variados e características de desempenho em diferentes camadas da rede. Propomos um framework de fusão de scores que combina previsões de qualidade de múltiplos blocos do transformador sem modificações arquiteturais ou treinamento adicional. Nossa análise de saída antecipada revela trade-offs ótimos entre desempenho e eficiência, permitindo economias computacionais significativas enquanto mantém um desempenho competitivo. Por meio de uma avaliação extensa em oito conjuntos de dados de referência usando quatro modelos de reconhecimento facial, demonstramos que nossa estratégia de fusão supera as abordagens de saída única. Nossa abordagem proposta de fusão de qualidade emprega uma média ponderada por profundidade que atribui importância progressivamente maior aos blocos mais profundos do transformador, alcançando o melhor desempenho de avaliação de qualidade ao aproveitar efetivamente a natureza hierárquica do aprendizado de características nos ViTs. Nosso trabalho desafia a sabedoria convencional de que apenas características profundas importam para a análise facial, revelando que as representações intermediárias contêm informações valiosas para a avaliação da qualidade. O framework proposto oferece benefícios práticos para sistemas biométricos do mundo real ao permitir computação adaptativa com base em restrições de recursos, mantendo capacidades competitivas de avaliação de qualidade.
English
Face Image Quality Assessment is crucial for reliable face recognition systems, yet existing Vision Transformer-based approaches rely exclusively on final-layer representations, ignoring quality-relevant information captured at intermediate network depths. This paper presents the first comprehensive investigation of how intermediate representations within ViTs contribute to face quality assessment through early exit mechanisms and score fusion strategies. We systematically analyze all twelve transformer blocks of ViT-FIQA architectures, demonstrating that different depths capture distinct and complementary quality-relevant information, as evidenced by varying attention patterns and performance characteristics across network layers. We propose a score fusion framework that combines quality predictions from multiple transformer blocks without architectural modifications or additional training. Our early exit analysis reveals optimal performance-efficiency trade-offs, enabling significant computational savings while maintaining competitive performance. Through extensive evaluation across eight benchmark datasets using four FR models, we demonstrate that our fusion strategy improves upon single-exit approaches. Our proposed quality fusion approach employs depth-weighted averaging that assigns progressively higher importance to deeper transformer blocks, achieving the best quality assessment performance by effectively leveraging the hierarchical nature of feature learning in ViTs. Our work challenges the conventional wisdom that only deep features matter for face analysis, revealing that intermediate representations contain valuable information for quality assessment. The proposed framework offers practical benefits for real-world biometric systems by enabling adaptive computation based on resource constraints while maintaining competitive quality assessment capabilities.