TTRV: Apprendimento per Rinforzo al Momento del Test per Modelli di Visione e Linguaggio

Abstract

I metodi esistenti per estrarre segnali di ricompensa nel Reinforcement Learning si basano tipicamente su dati etichettati e suddivisioni dedicate per l'addestramento, un'impostazione che contrasta con il modo in cui gli esseri umani apprendono direttamente dal loro ambiente. In questo lavoro, proponiamo TTRV per migliorare la comprensione del linguaggio visivo adattando il modello al volo durante l'inferenza, senza la necessità di dati etichettati. Nello specifico, potenziamo il framework Group Relative Policy Optimization (GRPO) progettando ricompense basate sulla frequenza dell'output del modello di base, mentre eseguiamo inferenze multiple su ciascun campione di test. Inoltre, proponiamo di controllare la diversità dell'output del modello premiando simultaneamente il modello per ottenere una bassa entropia della distribuzione empirica dell'output. Il nostro approccio fornisce miglioramenti consistenti sia nel riconoscimento di oggetti che nel visual question answering (VQA), con incrementi fino al 52,4% e al 29,8%, rispettivamente, e aumenti medi del 24,6% e del 10,0% su 16 dataset. Notevolmente, nel riconoscimento di immagini, TTRV applicato a InternVL 8B supera GPT-4o in media del 2,3% su 8 benchmark, rimanendo altamente competitivo nel VQA, dimostrando che il reinforcement learning al momento del test può eguagliare o superare i modelli proprietari più potenti. Infine, scopriamo molte proprietà interessanti del reinforcement learning al momento del test per i modelli di linguaggio visivo (VLMs): ad esempio, anche in scenari estremamente limitati in termini di dati, dove l'adattamento viene eseguito su un singolo esempio di test non etichettato scelto casualmente, TTRV produce comunque miglioramenti significativi fino al 5,5% nei compiti di riconoscimento.

English

Existing methods for extracting reward signals in Reinforcement Learning typically rely on labeled data and dedicated training splits, a setup that contrasts with how humans learn directly from their environment. In this work, we propose TTRV to enhance vision language understanding by adapting the model on the fly at inference time, without the need for any labeled data. Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework by designing rewards based on the frequency of the base model's output, while inferring on each test sample multiple times. Further, we also propose to control the diversity of the model's output by simultaneously rewarding the model for obtaining low entropy of the output empirical distribution. Our approach delivers consistent gains across both object recognition and visual question answering (VQA), with improvements of up to 52.4% and 29.8%, respectively, and average boosts of 24.6% and 10.0% across 16 datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining highly competitive on VQA, demonstrating that test-time reinforcement learning can match or exceed the strongest proprietary models. Finally, we find many interesting properties of test-time RL for VLMs: for example, even in extremely data-constrained scenarios, where adaptation is performed on a single randomly chosen unlabeled test example, TTRV still yields non-trivial improvements of up to 5.5% in recognition tasks.

TTRV: Apprendimento per Rinforzo al Momento del Test per Modelli di Visione e Linguaggio

TTRV: Test-Time Reinforcement Learning for Vision Language Models

Abstract

Support