Scalabilità Efficiente al Momento del Test per Piccoli Modelli Visione-Linguaggio
Efficient Test-Time Scaling for Small Vision-Language Models
October 3, 2025
Autori: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI
Abstract
I piccoli modelli visione-linguaggio (VLMs) offrono un'alternativa computazionalmente efficiente rispetto ai modelli più grandi, al costo di capacità di generalizzazione e prestazioni su task downstream inferiori. Queste carenze potrebbero essere affrontate con tecniche di scaling al momento del test, ma i metodi esistenti sono tipicamente dispendiosi in termini di risorse, contraddicendo gli obiettivi di progettazione efficiente dei piccoli modelli. Per superare queste limitazioni, proponiamo due nuove strategie di scaling al momento del test che sfruttano le caratteristiche interne del modello anziché supervisione esterna: (i) Test-Time Augmentation (TTAug), che genera input aumentati multipli e aggrega gli output a livello di token senza aggiornamenti dei parametri, e (ii) Test-Time Adaptation (TTAdapt), che adatta i parametri del modello durante l'inferenza utilizzando pseudolabel basati su consenso provenienti da TTAug. Attraverso esperimenti estesi su nove benchmark, dimostriamo miglioramenti prestazionali consistenti mantenendo un'efficienza computazionale adatta ad ambienti con risorse limitate. La generalità del nostro approccio è dimostrata sia all'interno di modelli di scale diverse che tra diversi VLMs senza ulteriori ottimizzazioni.
English
Small Vision-Language Models (VLMs) provide a computationally efficient
alternative to larger models, at the cost of weaker generalization abilities
and downstream task performance. These shortcomings could be addressed by
test-time scaling techniques, but existing methods are typically
computationally demanding, contradicting the resource-efficient design goals of
small models. To address these limitations, we propose two novel and efficient
test-time scaling strategies that leverage the model-internal features rather
than external supervision: (i) Test-Time Augmentation (TTAug), which generates
multiple augmented inputs and aggregates outputs at the token level without
parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model
parameters during inference using consensus-based pseudolabels from TTAug.
Through extensive experiments across nine benchmarks, we demonstrate consistent
performance improvements while maintaining computational efficiency suitable
for resource-constrained environments. The generality of our approach is
demonstrated both within models at different scales and across different VLMs
without additional tuning.