小型視覚言語モデルのための効率的なテスト時スケーリング
Efficient Test-Time Scaling for Small Vision-Language Models
October 3, 2025
著者: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI
要旨
小型視覚言語モデル(VLM)は、計算効率の良い代替手段を提供しますが、一般化能力や下流タスクの性能が弱いという代償を伴います。これらの欠点はテスト時のスケーリング技術によって解決可能ですが、既存の手法は通常計算量が多く、小型モデルのリソース効率設計目標と矛盾します。これらの制限に対処するため、外部の監視ではなくモデル内部の特徴を活用した、2つの新しい効率的なテスト時スケーリング戦略を提案します:(i) テスト時拡張(TTAug)は、複数の拡張入力を生成し、パラメータ更新なしにトークンレベルで出力を集約します。(ii) テスト時適応(TTAdapt)は、TTAugからのコンセンサスベースの擬似ラベルを使用して、推論中にモデルパラメータを適応させます。9つのベンチマークにわたる広範な実験を通じて、リソース制約環境に適した計算効率を維持しながら、一貫した性能向上を実証します。本手法の汎用性は、異なるスケールのモデル内および異なるVLM間で、追加のチューニングなしに示されています。
English
Small Vision-Language Models (VLMs) provide a computationally efficient
alternative to larger models, at the cost of weaker generalization abilities
and downstream task performance. These shortcomings could be addressed by
test-time scaling techniques, but existing methods are typically
computationally demanding, contradicting the resource-efficient design goals of
small models. To address these limitations, we propose two novel and efficient
test-time scaling strategies that leverage the model-internal features rather
than external supervision: (i) Test-Time Augmentation (TTAug), which generates
multiple augmented inputs and aggregates outputs at the token level without
parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model
parameters during inference using consensus-based pseudolabels from TTAug.
Through extensive experiments across nine benchmarks, we demonstrate consistent
performance improvements while maintaining computational efficiency suitable
for resource-constrained environments. The generality of our approach is
demonstrated both within models at different scales and across different VLMs
without additional tuning.