ViTNT-FIQA: Оценка качества изображений лиц без обучения на основе Vision Transformer
ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers
January 9, 2026
Авторы: Guray Ozgur, Eduarda Caldeira, Tahar Chettaoui, Jan Niklas Kolf, Marco Huber, Naser Damer, Fadi Boutros
cs.AI
Аннотация
Оценка качества лицевых изображений (FIQA) играет ключевую роль в обеспечении надежности систем распознавания лиц. Современные подходы в основном используют только представления из конечных слоев, в то время как методы, не требующие обучения, нуждаются в множественных прямых проходах или обратном распространении ошибки. Мы предлагаем ViTNT-FIQA — метод без обучения, который измеряет стабильность эволюции эмбеддингов патчей в промежуточных блоках Vision Transformer (ViT). Мы показываем, что изображения лиц высокого качества демонстрируют стабильные траектории уточнения признаков между блоками, тогда как деградированные изображения проявляют хаотичные преобразования. Наш метод вычисляет евклидовы расстояния между L2-нормированными эмбеддингами патчей из последовательных блоков трансформера и агрегирует их в оценки качества на уровне изображения. Мы эмпирически подтверждаем эту корреляцию на синтетическом наборе данных с контролируемыми уровнями деградации и метками качества. В отличие от существующих методов, не требующих обучения, ViTNT-FIQA требует всего одного прямого прохода без обратного распространения или модификаций архитектуры. В результате всесторонней оценки на восьми бенчмарках (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C) мы демонстрируем, что ViTNT-FIQA достигает конкурентоспособной производительности с современными методами, сохраняя при этом вычислительную эффективность и возможность немедленного применения к любой предварительно обученной ViT-модели для распознавания лиц.
English
Face Image Quality Assessment (FIQA) is essential for reliable face recognition systems. Current approaches primarily exploit only final-layer representations, while training-free methods require multiple forward passes or backpropagation. We propose ViTNT-FIQA, a training-free approach that measures the stability of patch embedding evolution across intermediate Vision Transformer (ViT) blocks. We demonstrate that high-quality face images exhibit stable feature refinement trajectories across blocks, while degraded images show erratic transformations. Our method computes Euclidean distances between L2-normalized patch embeddings from consecutive transformer blocks and aggregates them into image-level quality scores. We empirically validate this correlation on a quality-labeled synthetic dataset with controlled degradation levels. Unlike existing training-free approaches, ViTNT-FIQA requires only a single forward pass without backpropagation or architectural modifications. Through extensive evaluation on eight benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), we show that ViTNT-FIQA achieves competitive performance with state-of-the-art methods while maintaining computational efficiency and immediate applicability to any pre-trained ViT-based face recognition model.