TTRV: Test-Time Reinforcement Learning voor Vision Language Models

Samenvatting

Bestaande methoden voor het extraheren van beloningssignalen in Reinforcement Learning vertrouwen doorgaans op gelabelde data en specifieke trainingssplits, een opzet die afwijkt van hoe mensen direct leren uit hun omgeving. In dit werk stellen we TTRV voor om visuele taalbegrip te verbeteren door het model tijdens de inferentie aan te passen, zonder de noodzaak van gelabelde data. Concreet versterken we het Group Relative Policy Optimization (GRPO)-raamwerk door beloningen te ontwerpen op basis van de frequentie van de uitvoer van het basismodel, terwijl we meerdere keren inferentie uitvoeren op elk testvoorbeeld. Daarnaast stellen we ook voor om de diversiteit van de uitvoer van het model te beheersen door het model tegelijkertijd te belonen voor het behalen van een lage entropie van de empirische verdeling van de uitvoer. Onze aanpak levert consistente verbeteringen op voor zowel objectherkenning als visuele vraagbeantwoording (VQA), met verbeteringen tot 52,4% en 29,8%, respectievelijk, en gemiddelde stijgingen van 24,6% en 10,0% over 16 datasets. Opmerkelijk is dat TTRV, toegepast op InternVL 8B, bij beeldherkenning GPT-4o gemiddeld met 2,3% overtreft over 8 benchmarks, terwijl het zeer competitief blijft op VQA, wat aantoont dat test-time reinforcement learning de sterkste propriëtaire modellen kan evenaren of overtreffen. Tot slot ontdekken we veel interessante eigenschappen van test-time RL voor VLMs: bijvoorbeeld, zelfs in extreem data-beperkte scenario's, waarbij aanpassing wordt uitgevoerd op een enkel willekeurig gekozen ongelabeld testvoorbeeld, levert TTRV nog steeds significante verbeteringen op tot 5,5% in herkenningstaken.

English

Existing methods for extracting reward signals in Reinforcement Learning typically rely on labeled data and dedicated training splits, a setup that contrasts with how humans learn directly from their environment. In this work, we propose TTRV to enhance vision language understanding by adapting the model on the fly at inference time, without the need for any labeled data. Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework by designing rewards based on the frequency of the base model's output, while inferring on each test sample multiple times. Further, we also propose to control the diversity of the model's output by simultaneously rewarding the model for obtaining low entropy of the output empirical distribution. Our approach delivers consistent gains across both object recognition and visual question answering (VQA), with improvements of up to 52.4% and 29.8%, respectively, and average boosts of 24.6% and 10.0% across 16 datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining highly competitive on VQA, demonstrating that test-time reinforcement learning can match or exceed the strongest proprietary models. Finally, we find many interesting properties of test-time RL for VLMs: for example, even in extremely data-constrained scenarios, where adaptation is performed on a single randomly chosen unlabeled test example, TTRV still yields non-trivial improvements of up to 5.5% in recognition tasks.

TTRV: Test-Time Reinforcement Learning voor Vision Language Models

TTRV: Test-Time Reinforcement Learning for Vision Language Models

Samenvatting

Support