Effiziente Testzeit-Skalierung für kleine Vision-Sprache-Modelle
Efficient Test-Time Scaling for Small Vision-Language Models
October 3, 2025
papers.authors: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI
papers.abstract
Kleine Vision-Sprach-Modelle (VLMs) bieten eine recheneffiziente Alternative zu größeren Modellen, allerdings auf Kosten schwächerer Generalisierungsfähigkeiten und Leistung bei nachgelagerten Aufgaben. Diese Schwächen könnten durch Testzeit-Skalierungstechniken behoben werden, doch bestehende Methoden sind typischerweise rechenintensiv, was den ressourceneffizienten Designzielen kleiner Modelle widerspricht. Um diese Einschränkungen zu überwinden, schlagen wir zwei neuartige und effiziente Testzeit-Skalierungsstrategien vor, die auf modellinternen Merkmalen basieren und nicht auf externer Überwachung: (i) Testzeit-Augmentierung (TTAug), die mehrere augmentierte Eingaben erzeugt und Ausgaben auf Token-Ebene ohne Parameteraktualisierungen aggregiert, und (ii) Testzeit-Anpassung (TTAdapt), die Modellparameter während der Inferenz mithilfe konsensbasierter Pseudolabels aus TTAug anpasst. Durch umfangreiche Experimente über neun Benchmarks hinweg zeigen wir konsistente Leistungsverbesserungen bei gleichbleibender Recheneffizienz, die für ressourcenbeschränkte Umgebungen geeignet ist. Die Allgemeingültigkeit unseres Ansatzes wird sowohl innerhalb von Modellen unterschiedlicher Skalen als auch über verschiedene VLMs hinweg ohne zusätzliche Anpassung demonstriert.
English
Small Vision-Language Models (VLMs) provide a computationally efficient
alternative to larger models, at the cost of weaker generalization abilities
and downstream task performance. These shortcomings could be addressed by
test-time scaling techniques, but existing methods are typically
computationally demanding, contradicting the resource-efficient design goals of
small models. To address these limitations, we propose two novel and efficient
test-time scaling strategies that leverage the model-internal features rather
than external supervision: (i) Test-Time Augmentation (TTAug), which generates
multiple augmented inputs and aggregates outputs at the token level without
parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model
parameters during inference using consensus-based pseudolabels from TTAug.
Through extensive experiments across nine benchmarks, we demonstrate consistent
performance improvements while maintaining computational efficiency suitable
for resource-constrained environments. The generality of our approach is
demonstrated both within models at different scales and across different VLMs
without additional tuning.