Escalonamento Eficiente em Tempo de Teste para Pequenos Modelos de Visão e Linguagem
Efficient Test-Time Scaling for Small Vision-Language Models
October 3, 2025
Autores: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI
Resumo
Os Modelos Pequenos de Visão e Linguagem (VLMs) oferecem uma alternativa computacionalmente eficiente aos modelos maiores, em detrimento de capacidades de generalização e desempenho em tarefas subsequentes mais limitados. Essas deficiências poderiam ser abordadas por técnicas de escalonamento em tempo de teste, mas os métodos existentes são tipicamente demandantes em termos computacionais, contradizendo os objetivos de design eficiente em recursos dos modelos pequenos. Para superar essas limitações, propomos duas estratégias novas e eficientes de escalonamento em tempo de teste que aproveitam as características internas do modelo em vez de supervisão externa: (i) Aumentação em Tempo de Teste (TTAug), que gera múltiplas entradas aumentadas e agrega saídas no nível de token sem atualizações de parâmetros, e (ii) Adaptação em Tempo de Teste (TTAdapt), que adapta os parâmetros do modelo durante a inferência usando pseudorrótulos baseados em consenso provenientes do TTAug. Por meio de experimentos extensos em nove benchmarks, demonstramos melhorias consistentes de desempenho enquanto mantemos a eficiência computacional adequada para ambientes com recursos limitados. A generalidade da nossa abordagem é demonstrada tanto dentro de modelos em diferentes escalas quanto em diferentes VLMs sem ajustes adicionais.
English
Small Vision-Language Models (VLMs) provide a computationally efficient
alternative to larger models, at the cost of weaker generalization abilities
and downstream task performance. These shortcomings could be addressed by
test-time scaling techniques, but existing methods are typically
computationally demanding, contradicting the resource-efficient design goals of
small models. To address these limitations, we propose two novel and efficient
test-time scaling strategies that leverage the model-internal features rather
than external supervision: (i) Test-Time Augmentation (TTAug), which generates
multiple augmented inputs and aggregates outputs at the token level without
parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model
parameters during inference using consensus-based pseudolabels from TTAug.
Through extensive experiments across nine benchmarks, we demonstrate consistent
performance improvements while maintaining computational efficiency suitable
for resource-constrained environments. The generality of our approach is
demonstrated both within models at different scales and across different VLMs
without additional tuning.