Efficiënte Testtijd Schaling voor Kleine Vision-Language Modellen
Efficient Test-Time Scaling for Small Vision-Language Models
October 3, 2025
Auteurs: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI
Samenvatting
Kleine Vision-Language Models (VLMs) bieden een computationeel efficiënt alternatief voor grotere modellen, ten koste van zwakkere generalisatievermogens en prestaties bij downstream taken. Deze tekortkomingen kunnen worden aangepakt met test-time schalingstechnieken, maar bestaande methoden zijn doorgaans computationeel veeleisend, wat in tegenspraak is met de doelstellingen van resource-efficiënt ontwerp van kleine modellen. Om deze beperkingen aan te pakken, stellen we twee nieuwe en efficiënte test-time schalingsstrategieën voor die gebruikmaken van de interne kenmerken van het model in plaats van externe supervisie: (i) Test-Time Augmentation (TTAug), dat meerdere geaugmenteerde inputs genereert en outputs op tokenniveau aggregeert zonder parameterupdates, en (ii) Test-Time Adaptation (TTAdapt), dat modelparameters tijdens inferentie aanpast met behulp van consensusgebaseerde pseudolabels van TTAug. Door uitgebreide experimenten over negen benchmarks tonen we consistente prestatieverbeteringen aan, terwijl de computationele efficiëntie geschikt blijft voor omgevingen met beperkte resources. De algemeenheid van onze aanpak wordt aangetoond zowel binnen modellen van verschillende schalen als over verschillende VLMs heen, zonder aanvullende afstemming.
English
Small Vision-Language Models (VLMs) provide a computationally efficient
alternative to larger models, at the cost of weaker generalization abilities
and downstream task performance. These shortcomings could be addressed by
test-time scaling techniques, but existing methods are typically
computationally demanding, contradicting the resource-efficient design goals of
small models. To address these limitations, we propose two novel and efficient
test-time scaling strategies that leverage the model-internal features rather
than external supervision: (i) Test-Time Augmentation (TTAug), which generates
multiple augmented inputs and aggregates outputs at the token level without
parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model
parameters during inference using consensus-based pseudolabels from TTAug.
Through extensive experiments across nine benchmarks, we demonstrate consistent
performance improvements while maintaining computational efficiency suitable
for resource-constrained environments. The generality of our approach is
demonstrated both within models at different scales and across different VLMs
without additional tuning.