ChatPaper.aiChatPaper

TTRV : Apprentissage par renforcement en phase de test pour les modèles de vision et de langage

TTRV: Test-Time Reinforcement Learning for Vision Language Models

October 8, 2025
papers.authors: Akshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza
cs.AI

papers.abstract

Les méthodes existantes pour extraire les signaux de récompense en apprentissage par renforcement reposent généralement sur des données étiquetées et des ensembles d'entraînement dédiés, une configuration qui contraste avec la manière dont les humains apprennent directement à partir de leur environnement. Dans ce travail, nous proposons TTRV pour améliorer la compréhension visuelle et langagière en adaptant le modèle à la volée lors de l'inférence, sans nécessiter de données étiquetées. Concrètement, nous améliorons le cadre d'optimisation de politique relative par groupe (GRPO) en concevant des récompenses basées sur la fréquence des sorties du modèle de base, tout en inférant plusieurs fois sur chaque échantillon de test. De plus, nous proposons également de contrôler la diversité des sorties du modèle en récompensant simultanément le modèle pour obtenir une faible entropie de la distribution empirique des sorties. Notre approche apporte des gains constants à la fois en reconnaissance d'objets et en réponse à des questions visuelles (VQA), avec des améliorations allant jusqu'à 52,4 % et 29,8 %, respectivement, et des augmentations moyennes de 24,6 % et 10,0 % sur 16 ensembles de données. Remarquablement, en reconnaissance d'images, TTRV appliqué à InternVL 8B surpasse GPT-4o en moyenne de 2,3 % sur 8 benchmarks, tout en restant très compétitif en VQA, démontrant que l'apprentissage par renforcement au moment du test peut égaler ou dépasser les modèles propriétaires les plus puissants. Enfin, nous découvrons de nombreuses propriétés intéressantes de l'apprentissage par renforcement au moment du test pour les modèles de langage visuel (VLM) : par exemple, même dans des scénarios extrêmement limités en données, où l'adaptation est effectuée sur un seul exemple de test non étiqueté choisi au hasard, TTRV produit encore des améliorations non négligeables allant jusqu'à 5,5 % dans les tâches de reconnaissance.
English
Existing methods for extracting reward signals in Reinforcement Learning typically rely on labeled data and dedicated training splits, a setup that contrasts with how humans learn directly from their environment. In this work, we propose TTRV to enhance vision language understanding by adapting the model on the fly at inference time, without the need for any labeled data. Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework by designing rewards based on the frequency of the base model's output, while inferring on each test sample multiple times. Further, we also propose to control the diversity of the model's output by simultaneously rewarding the model for obtaining low entropy of the output empirical distribution. Our approach delivers consistent gains across both object recognition and visual question answering (VQA), with improvements of up to 52.4% and 29.8%, respectively, and average boosts of 24.6% and 10.0% across 16 datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining highly competitive on VQA, demonstrating that test-time reinforcement learning can match or exceed the strongest proprietary models. Finally, we find many interesting properties of test-time RL for VLMs: for example, even in extremely data-constrained scenarios, where adaptation is performed on a single randomly chosen unlabeled test example, TTRV still yields non-trivial improvements of up to 5.5% in recognition tasks.
PDF112October 9, 2025