ChatPaper.aiChatPaper

TTRV: Aprendizado por Reforço em Tempo de Teste para Modelos de Visão e Linguagem

TTRV: Test-Time Reinforcement Learning for Vision Language Models

October 8, 2025
Autores: Akshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza
cs.AI

Resumo

Os métodos existentes para extrair sinais de recompensa em Aprendizado por Reforço geralmente dependem de dados rotulados e divisões de treinamento dedicadas, uma configuração que contrasta com a forma como os humanos aprendem diretamente de seu ambiente. Neste trabalho, propomos o TTRV para aprimorar a compreensão de visão e linguagem adaptando o modelo em tempo real durante a inferência, sem a necessidade de qualquer dado rotulado. Concretamente, aprimoramos o framework Group Relative Policy Optimization (GRPO) projetando recompensas baseadas na frequência da saída do modelo base, enquanto inferimos cada amostra de teste múltiplas vezes. Além disso, também propomos controlar a diversidade da saída do modelo recompensando simultaneamente o modelo por obter baixa entropia da distribuição empírica da saída. Nossa abordagem proporciona ganhos consistentes tanto em reconhecimento de objetos quanto em resposta a perguntas visuais (VQA), com melhorias de até 52,4% e 29,8%, respectivamente, e aumentos médios de 24,6% e 10,0% em 16 conjuntos de dados. Notavelmente, no reconhecimento de imagens, o TTRV aplicado ao InternVL 8B supera o GPT-4o em média 2,3% em 8 benchmarks, enquanto permanece altamente competitivo em VQA, demonstrando que o aprendizado por reforço em tempo de teste pode igualar ou superar os modelos proprietários mais fortes. Por fim, descobrimos muitas propriedades interessantes do RL em tempo de teste para VLMs: por exemplo, mesmo em cenários extremamente limitados em dados, onde a adaptação é realizada em um único exemplo de teste não rotulado escolhido aleatoriamente, o TTRV ainda produz melhorias não triviais de até 5,5% em tarefas de reconhecimento.
English
Existing methods for extracting reward signals in Reinforcement Learning typically rely on labeled data and dedicated training splits, a setup that contrasts with how humans learn directly from their environment. In this work, we propose TTRV to enhance vision language understanding by adapting the model on the fly at inference time, without the need for any labeled data. Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework by designing rewards based on the frequency of the base model's output, while inferring on each test sample multiple times. Further, we also propose to control the diversity of the model's output by simultaneously rewarding the model for obtaining low entropy of the output empirical distribution. Our approach delivers consistent gains across both object recognition and visual question answering (VQA), with improvements of up to 52.4% and 29.8%, respectively, and average boosts of 24.6% and 10.0% across 16 datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining highly competitive on VQA, demonstrating that test-time reinforcement learning can match or exceed the strongest proprietary models. Finally, we find many interesting properties of test-time RL for VLMs: for example, even in extremely data-constrained scenarios, where adaptation is performed on a single randomly chosen unlabeled test example, TTRV still yields non-trivial improvements of up to 5.5% in recognition tasks.
PDF112October 9, 2025