ChatPaper.aiChatPaper

Escalado Eficiente en Tiempo de Prueba para Modelos Pequeños de Visión y Lenguaje

Efficient Test-Time Scaling for Small Vision-Language Models

October 3, 2025
Autores: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos
cs.AI

Resumen

Los Modelos Pequeños de Visión y Lenguaje (VLMs, por sus siglas en inglés) ofrecen una alternativa computacionalmente eficiente a los modelos más grandes, aunque a costa de una menor capacidad de generalización y un rendimiento inferior en tareas específicas. Estas limitaciones podrían abordarse mediante técnicas de escalado en tiempo de prueba, pero los métodos existentes suelen ser computacionalmente costosos, lo que contradice los objetivos de diseño eficiente en recursos de los modelos pequeños. Para abordar estas limitaciones, proponemos dos estrategias novedosas y eficientes de escalado en tiempo de prueba que aprovechan las características internas del modelo en lugar de supervisión externa: (i) Aumento en Tiempo de Prueba (TTAug, por sus siglas en inglés), que genera múltiples entradas aumentadas y agrega las salidas a nivel de token sin actualizaciones de parámetros, y (ii) Adaptación en Tiempo de Prueba (TTAdapt, por sus siglas en inglés), que adapta los parámetros del modelo durante la inferencia utilizando pseudolabels basados en consenso obtenidos de TTAug. A través de experimentos exhaustivos en nueve benchmarks, demostramos mejoras consistentes en el rendimiento mientras mantenemos una eficiencia computacional adecuada para entornos con recursos limitados. La generalidad de nuestro enfoque se demuestra tanto dentro de modelos de diferentes escalas como en distintos VLMs sin necesidad de ajustes adicionales.
English
Small Vision-Language Models (VLMs) provide a computationally efficient alternative to larger models, at the cost of weaker generalization abilities and downstream task performance. These shortcomings could be addressed by test-time scaling techniques, but existing methods are typically computationally demanding, contradicting the resource-efficient design goals of small models. To address these limitations, we propose two novel and efficient test-time scaling strategies that leverage the model-internal features rather than external supervision: (i) Test-Time Augmentation (TTAug), which generates multiple augmented inputs and aggregates outputs at the token level without parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model parameters during inference using consensus-based pseudolabels from TTAug. Through extensive experiments across nine benchmarks, we demonstrate consistent performance improvements while maintaining computational efficiency suitable for resource-constrained environments. The generality of our approach is demonstrated both within models at different scales and across different VLMs without additional tuning.
PDF92October 7, 2025