Эффективное масштабирование во время тестирования для небольших моделей обработки зрения и языка

Аннотация

Малые модели обработки зрения и языка (Vision-Language Models, VLMs) представляют собой вычислительно эффективную альтернативу более крупным моделям, однако за счет снижения способности к обобщению и производительности на целевых задачах. Эти недостатки можно было бы устранить с помощью методов масштабирования на этапе тестирования, но существующие подходы, как правило, требуют значительных вычислительных ресурсов, что противоречит целям разработки ресурсоэффективных малых моделей. Для устранения этих ограничений мы предлагаем две новые и эффективные стратегии масштабирования на этапе тестирования, которые используют внутренние характеристики модели, а не внешнее управление: (i) Аугментация на этапе тестирования (Test-Time Augmentation, TTAug), которая генерирует несколько аугментированных входных данных и агрегирует выходы на уровне токенов без обновления параметров, и (ii) Адаптация на этапе тестирования (Test-Time Adaptation, TTAdapt), которая адаптирует параметры модели в процессе вывода с использованием псевдометок, основанных на консенсусе, полученных с помощью TTAug. В ходе обширных экспериментов на девяти бенчмарках мы демонстрируем стабильное улучшение производительности при сохранении вычислительной эффективности, подходящей для сред с ограниченными ресурсами. Универсальность нашего подхода подтверждается как для моделей различных масштабов, так и для различных VLMs без дополнительной настройки.

English

Small Vision-Language Models (VLMs) provide a computationally efficient alternative to larger models, at the cost of weaker generalization abilities and downstream task performance. These shortcomings could be addressed by test-time scaling techniques, but existing methods are typically computationally demanding, contradicting the resource-efficient design goals of small models. To address these limitations, we propose two novel and efficient test-time scaling strategies that leverage the model-internal features rather than external supervision: (i) Test-Time Augmentation (TTAug), which generates multiple augmented inputs and aggregates outputs at the token level without parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model parameters during inference using consensus-based pseudolabels from TTAug. Through extensive experiments across nine benchmarks, we demonstrate consistent performance improvements while maintaining computational efficiency suitable for resource-constrained environments. The generality of our approach is demonstrated both within models at different scales and across different VLMs without additional tuning.

Эффективное масштабирование во время тестирования для небольших моделей обработки зрения и языка

Efficient Test-Time Scaling for Small Vision-Language Models

Аннотация

Support