VisionThink: Modello Linguistico Visivo Intelligente ed Efficiente tramite Apprendimento per Rinforzo
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
Autori: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
Abstract
I recenti progressi nei modelli visione-linguaggio (VLMs) hanno migliorato le prestazioni aumentando il numero di token visivi, che sono spesso significativamente più lunghi rispetto ai token testuali. Tuttavia, osserviamo che la maggior parte degli scenari reali non richiede un numero così elevato di token visivi. Sebbene le prestazioni diminuiscano significativamente in un piccolo sottoinsieme di attività legate all'OCR, i modelli continuano a funzionare con precisione nella maggior parte delle altre attività generali di VQA (Visual Question Answering) con solo 1/4 della risoluzione. Pertanto, proponiamo di elaborare dinamicamente campioni distinti con diverse risoluzioni e presentiamo un nuovo paradigma per la compressione dei token visivi, denominato VisionThink. Questo approccio inizia con un'immagine sottocampionata e decide in modo intelligente se è sufficiente per risolvere il problema. In caso contrario, il modello può generare un token speciale per richiedere l'immagine a risoluzione più alta. Rispetto ai metodi Efficient VLM esistenti che comprimono i token utilizzando rapporti di potatura o soglie fisse, VisionThink decide autonomamente se comprimere i token caso per caso. Di conseguenza, dimostra una forte capacità di comprensione visiva fine nelle attività legate all'OCR, risparmiando al contempo un numero sostanziale di token visivi su compiti più semplici. Adottiamo l'apprendimento per rinforzo e proponiamo la strategia LLM-as-Judge per applicare con successo l'RL alle attività generali di VQA. Inoltre, progettiamo attentamente una funzione di ricompensa e un meccanismo di penalizzazione per ottenere un rapporto stabile e ragionevole di chiamate di ridimensionamento dell'immagine. Esperimenti estensivi dimostrano la superiorità, l'efficienza e l'efficacia del nostro metodo. Il nostro codice è disponibile all'indirizzo https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.