ChatPaper.aiChatPaper

Эффективное масштабирование во время тестирования для небольших моделей обработки зрения и языка

Efficient Test-Time Scaling for Small Vision-Language Models

October 3, 2025
Авторы: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI

Аннотация

Малые модели обработки зрения и языка (Vision-Language Models, VLMs) представляют собой вычислительно эффективную альтернативу более крупным моделям, однако за счет снижения способности к обобщению и производительности на целевых задачах. Эти недостатки можно было бы устранить с помощью методов масштабирования на этапе тестирования, но существующие подходы, как правило, требуют значительных вычислительных ресурсов, что противоречит целям разработки ресурсоэффективных малых моделей. Для устранения этих ограничений мы предлагаем две новые и эффективные стратегии масштабирования на этапе тестирования, которые используют внутренние характеристики модели, а не внешнее управление: (i) Аугментация на этапе тестирования (Test-Time Augmentation, TTAug), которая генерирует несколько аугментированных входных данных и агрегирует выходы на уровне токенов без обновления параметров, и (ii) Адаптация на этапе тестирования (Test-Time Adaptation, TTAdapt), которая адаптирует параметры модели в процессе вывода с использованием псевдометок, основанных на консенсусе, полученных с помощью TTAug. В ходе обширных экспериментов на девяти бенчмарках мы демонстрируем стабильное улучшение производительности при сохранении вычислительной эффективности, подходящей для сред с ограниченными ресурсами. Универсальность нашего подхода подтверждается как для моделей различных масштабов, так и для различных VLMs без дополнительной настройки.
English
Small Vision-Language Models (VLMs) provide a computationally efficient alternative to larger models, at the cost of weaker generalization abilities and downstream task performance. These shortcomings could be addressed by test-time scaling techniques, but existing methods are typically computationally demanding, contradicting the resource-efficient design goals of small models. To address these limitations, we propose two novel and efficient test-time scaling strategies that leverage the model-internal features rather than external supervision: (i) Test-Time Augmentation (TTAug), which generates multiple augmented inputs and aggregates outputs at the token level without parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model parameters during inference using consensus-based pseudolabels from TTAug. Through extensive experiments across nine benchmarks, we demonstrate consistent performance improvements while maintaining computational efficiency suitable for resource-constrained environments. The generality of our approach is demonstrated both within models at different scales and across different VLMs without additional tuning.
PDF92October 7, 2025