TTRV: Aprendizaje por Refuerzo en Tiempo de Prueba para Modelos de Visión y Lenguaje
TTRV: Test-Time Reinforcement Learning for Vision Language Models
October 8, 2025
Autores: Akshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza
cs.AI
Resumen
Los métodos existentes para extraer señales de recompensa en Aprendizaje por Refuerzo suelen depender de datos etiquetados y divisiones de entrenamiento dedicadas, un enfoque que contrasta con cómo los humanos aprenden directamente de su entorno. En este trabajo, proponemos TTRV para mejorar la comprensión de lenguaje visual adaptando el modelo sobre la marcha durante la inferencia, sin necesidad de datos etiquetados. Concretamente, mejoramos el marco de Optimización de Política Relativa de Grupo (GRPO) diseñando recompensas basadas en la frecuencia de la salida del modelo base, mientras inferimos múltiples veces sobre cada muestra de prueba. Además, también proponemos controlar la diversidad de la salida del modelo recompensando simultáneamente al modelo por obtener una entropía baja en la distribución empírica de la salida. Nuestro enfoque ofrece mejoras consistentes tanto en reconocimiento de objetos como en respuesta a preguntas visuales (VQA), con incrementos de hasta el 52.4% y 29.8%, respectivamente, y mejoras promedio de 24.6% y 10.0% en 16 conjuntos de datos. Notablemente, en reconocimiento de imágenes, TTRV aplicado a InternVL 8B supera a GPT-4o en un promedio del 2.3% en 8 benchmarks, mientras que se mantiene altamente competitivo en VQA, demostrando que el aprendizaje por refuerzo en tiempo de prueba puede igualar o superar a los modelos propietarios más fuertes. Finalmente, descubrimos muchas propiedades interesantes del aprendizaje por refuerzo en tiempo de prueba para modelos de lenguaje visual (VLMs): por ejemplo, incluso en escenarios extremadamente limitados en datos, donde la adaptación se realiza en un único ejemplo de prueba no etiquetado elegido al azar, TTRV aún produce mejoras no triviales de hasta el 5.5% en tareas de reconocimiento.
English
Existing methods for extracting reward signals in Reinforcement Learning
typically rely on labeled data and dedicated training splits, a setup that
contrasts with how humans learn directly from their environment. In this work,
we propose TTRV to enhance vision language understanding by adapting the model
on the fly at inference time, without the need for any labeled data.
Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework
by designing rewards based on the frequency of the base model's output, while
inferring on each test sample multiple times. Further, we also propose to
control the diversity of the model's output by simultaneously rewarding the
model for obtaining low entropy of the output empirical distribution. Our
approach delivers consistent gains across both object recognition and visual
question answering (VQA), with improvements of up to 52.4% and 29.8%,
respectively, and average boosts of 24.6% and 10.0% across 16
datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B
surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining
highly competitive on VQA, demonstrating that test-time reinforcement learning
can match or exceed the strongest proprietary models. Finally, we find many
interesting properties of test-time RL for VLMs: for example, even in extremely
data-constrained scenarios, where adaptation is performed on a single randomly
chosen unlabeled test example, TTRV still yields non-trivial improvements of up
to 5.5% in recognition tasks.