EX-FIQA: Benutting van Tussentijdse Vroege Exit-Representaties uit Vision Transformers voor Kwaliteitsbeoordeling van Gezichtsafbeeldingen

Samenvatting

Face Image Quality Assessment is cruciaal voor betrouwbare gezichtsherkenning systemen, maar bestaande op Vision Transformers gebaseerde benaderingen vertrouwen uitsluitend op representaties uit de laatste laag, waarbij kwaliteitsrelevante informatie die op tussenliggende netwerkdieptes wordt vastgelegd, wordt genegeerd. Dit artikel presenteert het eerste uitgebreide onderzoek naar hoe tussenliggende representaties binnen ViTs bijdragen aan gezichtskwaliteitsbeoordeling door middel van early exit-mechanismen en scorefusiestrategieën. We analyseren systematisch alle twaalf transformerblokken van ViT-FIQA-architecturen en tonen aan dat verschillende dieptes distinctieve en complementaire kwaliteitsrelevante informatie vastleggen, zoals blijkt uit variërende aandachtspatronen en prestatiekenmerken over de netwerklagen heen. We stellen een scorefusieraamwerk voor dat kwaliteitsvoorspellingen van meerdere transformerblokken combineert zonder architectuurwijzigingen of extra training. Onze early exit-analyse onthult optimale prestatie-efficiëntie-afwegingen, waardoor aanzienlijke computationele besparingen mogelijk zijn met behoud van competitieve prestaties. Door middel van uitgebreide evaluatie over acht benchmarkdatasets met vier FR-modellen, demonstreren we dat onze fusiestrategie verbetering biedt ten opzichte van single-exit-benaderingen. Onze voorgestelde kwaliteitsfusiebenadering gebruikt dieptegewogen middeling die progressief hoger belang toekent aan diepere transformerblokken, waardoor de beste kwaliteitsbeoordelingsprestatie wordt bereikt door effectief gebruik te maken van de hiërarchische aard van feature learning in ViTs. Ons werk daagt de conventionele wijsheid uit dat alleen diepe features ertoe doen voor gezichtsanalyse, en toont aan dat tussenliggende representaties waardevolle informatie voor kwaliteitsbeoordeling bevatten. Het voorgestelde raamwerk biedt praktische voordelen voor real-world biometrische systemen door adaptieve berekening mogelijk te maken op basis van resourcebeperkingen, met behoud van competitieve kwaliteitsbeoordelingscapaciteiten.

English

Face Image Quality Assessment is crucial for reliable face recognition systems, yet existing Vision Transformer-based approaches rely exclusively on final-layer representations, ignoring quality-relevant information captured at intermediate network depths. This paper presents the first comprehensive investigation of how intermediate representations within ViTs contribute to face quality assessment through early exit mechanisms and score fusion strategies. We systematically analyze all twelve transformer blocks of ViT-FIQA architectures, demonstrating that different depths capture distinct and complementary quality-relevant information, as evidenced by varying attention patterns and performance characteristics across network layers. We propose a score fusion framework that combines quality predictions from multiple transformer blocks without architectural modifications or additional training. Our early exit analysis reveals optimal performance-efficiency trade-offs, enabling significant computational savings while maintaining competitive performance. Through extensive evaluation across eight benchmark datasets using four FR models, we demonstrate that our fusion strategy improves upon single-exit approaches. Our proposed quality fusion approach employs depth-weighted averaging that assigns progressively higher importance to deeper transformer blocks, achieving the best quality assessment performance by effectively leveraging the hierarchical nature of feature learning in ViTs. Our work challenges the conventional wisdom that only deep features matter for face analysis, revealing that intermediate representations contain valuable information for quality assessment. The proposed framework offers practical benefits for real-world biometric systems by enabling adaptive computation based on resource constraints while maintaining competitive quality assessment capabilities.

EX-FIQA: Benutting van Tussentijdse Vroege Exit-Representaties uit Vision Transformers voor Kwaliteitsbeoordeling van Gezichtsafbeeldingen

EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment

Samenvatting

Support