TTRV: Test-Zeit Reinforcement Learning für Vision-Language-Modelle
TTRV: Test-Time Reinforcement Learning for Vision Language Models
October 8, 2025
papers.authors: Akshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza
cs.AI
papers.abstract
Bestehende Methoden zur Extraktion von Belohnungssignalen im Reinforcement Learning basieren typischerweise auf annotierten Daten und speziellen Trainingsaufteilungen – ein Ansatz, der im Kontrast dazu steht, wie Menschen direkt aus ihrer Umgebung lernen. In dieser Arbeit schlagen wir TTRV vor, um das Verständnis von Vision-Language-Modellen zu verbessern, indem das Modell während der Inferenzzeit dynamisch angepasst wird, ohne dass annotierte Daten benötigt werden. Konkret erweitern wir das Group Relative Policy Optimization (GRPO)-Framework, indem wir Belohnungen basierend auf der Häufigkeit der Ausgaben des Basismodells entwerfen, während wir jedes Testbeispiel mehrfach inferieren. Darüber hinaus schlagen wir vor, die Diversität der Modellausgaben zu steuern, indem das Modell gleichzeitig für eine niedrige Entropie der empirischen Ausgabeverteilung belohnt wird. Unser Ansatz erzielt konsistente Verbesserungen sowohl bei der Objekterkennung als auch beim visuellen Frage-Antworten (VQA), mit Steigerungen von bis zu 52,4 % bzw. 29,8 % und durchschnittlichen Verbesserungen von 24,6 % und 10,0 % über 16 Datensätze hinweg. Bemerkenswerterweise übertrifft TTRV, angewendet auf InternVL 8B, bei der Bilderkennung GPT-4o im Durchschnitt um 2,3 % über 8 Benchmarks hinweg, während es bei VQA äußerst wettbewerbsfähig bleibt. Dies zeigt, dass Reinforcement Learning zur Inferenzzeit die stärksten proprietären Modelle erreichen oder übertreffen kann. Schließlich entdecken wir viele interessante Eigenschaften von Reinforcement Learning zur Inferenzzeit für Vision-Language-Modelle: Beispielsweise führt TTRV selbst in extrem datenbegrenzten Szenarien, in denen die Anpassung an einem einzigen zufällig ausgewählten, nicht annotierten Testbeispiel durchgeführt wird, immer noch zu signifikanten Verbesserungen von bis zu 5,5 % bei Erkennungsaufgaben.
English
Existing methods for extracting reward signals in Reinforcement Learning
typically rely on labeled data and dedicated training splits, a setup that
contrasts with how humans learn directly from their environment. In this work,
we propose TTRV to enhance vision language understanding by adapting the model
on the fly at inference time, without the need for any labeled data.
Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework
by designing rewards based on the frequency of the base model's output, while
inferring on each test sample multiple times. Further, we also propose to
control the diversity of the model's output by simultaneously rewarding the
model for obtaining low entropy of the output empirical distribution. Our
approach delivers consistent gains across both object recognition and visual
question answering (VQA), with improvements of up to 52.4% and 29.8%,
respectively, and average boosts of 24.6% and 10.0% across 16
datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B
surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining
highly competitive on VQA, demonstrating that test-time reinforcement learning
can match or exceed the strongest proprietary models. Finally, we find many
interesting properties of test-time RL for VLMs: for example, even in extremely
data-constrained scenarios, where adaptation is performed on a single randomly
chosen unlabeled test example, TTRV still yields non-trivial improvements of up
to 5.5% in recognition tasks.