ChatPaper.aiChatPaper

ViTNT-FIQA: Trainingsfreie Bewertung der Gesichtsbildqualität mit Vision Transformern

ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers

January 9, 2026
papers.authors: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI

papers.abstract

Die Bewertung der Gesichtsbildqualität (FIQA) ist entscheidend für zuverlässige Gesichtserkennungssysteme. Bisherige Ansätze nutzen hauptsächlich Endschicht-Repräsentationen, während trainierungsfreie Methoden mehrere Vorwärtsdurchläufe oder Backpropagation erfordern. Wir stellen ViTNT-FIQA vor, einen trainierungsfreien Ansatz, der die Stabilität der Entwicklung von Patch-Embeddings über intermediäre Vision-Transformer-(ViT)-Blöcke hinweg misst. Wir zeigen, dass hochwertige Gesichtsbilder stabile Merkmalsverfeinerungspfade über Blöcke hinweg aufweisen, während degradierte Bilder unregelmäßige Transformationen zeigen. Unser Verfahren berechnet euklidische Abstände zwischen L2-normalisierten Patch-Embeddings aufeinanderfolgender Transformer-Blöcke und aggregiert diese zu bildbasierten Qualitätswerten. Wir validieren diese Korrelation empirisch an einem qualitätsbewerteten synthetischen Datensatz mit kontrollierten Degradationsstufen. Im Gegensatz zu bestehenden trainierungsfreien Ansätzen benötigt ViTNT-FIQA nur einen einzigen Vorwärtsdurchlauf ohne Backpropagation oder Architekturmodifikationen. Durch umfassende Evaluation auf acht Benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C) zeigen wir, dass ViTNT-FIQA wettbewerbsfähige Leistung mit state-of-the-art Methoden erreicht, dabei Recheneffizienz bewahrt und sofort auf vortrainierte ViT-basierte Gesichtserkennungsmodelle anwendbar ist.
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.
PDF12January 13, 2026