Mise à l'échelle efficace en temps de test pour les petits modèles vision-langage
Efficient Test-Time Scaling for Small Vision-Language Models
October 3, 2025
papers.authors: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI
papers.abstract
Les petits modèles vision-langage (VLMs) offrent une alternative efficace sur le plan computationnel aux modèles plus volumineux, au prix de capacités de généralisation et de performances sur les tâches en aval plus faibles. Ces lacunes pourraient être atténuées par des techniques de mise à l'échelle au moment du test, mais les méthodes existantes sont généralement gourmandes en ressources, ce qui contredit les objectifs de conception économe en ressources des petits modèles. Pour pallier ces limitations, nous proposons deux nouvelles stratégies de mise à l'échelle au moment du test, efficaces et exploitant les caractéristiques internes du modèle plutôt qu'une supervision externe : (i) l'Augmentation au Moment du Test (TTAug), qui génère plusieurs entrées augmentées et agrège les sorties au niveau des tokens sans mise à jour des paramètres, et (ii) l'Adaptation au Moment du Test (TTAdapt), qui adapte les paramètres du modèle pendant l'inférence en utilisant des pseudolabels basés sur un consensus issus de TTAug. À travers des expériences approfondies sur neuf benchmarks, nous démontrons des améliorations de performances constantes tout en maintenant une efficacité computationnelle adaptée aux environnements à ressources limitées. La généralité de notre approche est démontrée à la fois au sein de modèles de différentes tailles et à travers différents VLMs sans réglage supplémentaire.
English
Small Vision-Language Models (VLMs) provide a computationally efficient
alternative to larger models, at the cost of weaker generalization abilities
and downstream task performance. These shortcomings could be addressed by
test-time scaling techniques, but existing methods are typically
computationally demanding, contradicting the resource-efficient design goals of
small models. To address these limitations, we propose two novel and efficient
test-time scaling strategies that leverage the model-internal features rather
than external supervision: (i) Test-Time Augmentation (TTAug), which generates
multiple augmented inputs and aggregates outputs at the token level without
parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model
parameters during inference using consensus-based pseudolabels from TTAug.
Through extensive experiments across nine benchmarks, we demonstrate consistent
performance improvements while maintaining computational efficiency suitable
for resource-constrained environments. The generality of our approach is
demonstrated both within models at different scales and across different VLMs
without additional tuning.