Escalonamento Eficiente em Tempo de Teste para Pequenos Modelos de Visão e Linguagem

Resumo

Os Modelos Pequenos de Visão e Linguagem (VLMs) oferecem uma alternativa computacionalmente eficiente aos modelos maiores, em detrimento de capacidades de generalização e desempenho em tarefas subsequentes mais limitados. Essas deficiências poderiam ser abordadas por técnicas de escalonamento em tempo de teste, mas os métodos existentes são tipicamente demandantes em termos computacionais, contradizendo os objetivos de design eficiente em recursos dos modelos pequenos. Para superar essas limitações, propomos duas estratégias novas e eficientes de escalonamento em tempo de teste que aproveitam as características internas do modelo em vez de supervisão externa: (i) Aumentação em Tempo de Teste (TTAug), que gera múltiplas entradas aumentadas e agrega saídas no nível de token sem atualizações de parâmetros, e (ii) Adaptação em Tempo de Teste (TTAdapt), que adapta os parâmetros do modelo durante a inferência usando pseudorrótulos baseados em consenso provenientes do TTAug. Por meio de experimentos extensos em nove benchmarks, demonstramos melhorias consistentes de desempenho enquanto mantemos a eficiência computacional adequada para ambientes com recursos limitados. A generalidade da nossa abordagem é demonstrada tanto dentro de modelos em diferentes escalas quanto em diferentes VLMs sem ajustes adicionais.

English

Small Vision-Language Models (VLMs) provide a computationally efficient alternative to larger models, at the cost of weaker generalization abilities and downstream task performance. These shortcomings could be addressed by test-time scaling techniques, but existing methods are typically computationally demanding, contradicting the resource-efficient design goals of small models. To address these limitations, we propose two novel and efficient test-time scaling strategies that leverage the model-internal features rather than external supervision: (i) Test-Time Augmentation (TTAug), which generates multiple augmented inputs and aggregates outputs at the token level without parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model parameters during inference using consensus-based pseudolabels from TTAug. Through extensive experiments across nine benchmarks, we demonstrate consistent performance improvements while maintaining computational efficiency suitable for resource-constrained environments. The generality of our approach is demonstrated both within models at different scales and across different VLMs without additional tuning.

Escalonamento Eficiente em Tempo de Teste para Pequenos Modelos de Visão e Linguagem

Efficient Test-Time Scaling for Small Vision-Language Models

Resumo

Support