VisionThink: Slim en Efficiënt Vision Taalmodel via Reinforcement Learning
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
Auteurs: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
Samenvatting
Recente vooruitgang in visie-taalmodellen (VLMs) heeft de prestaties verbeterd door het aantal visuele tokens te vergroten, die vaak aanzienlijk langer zijn dan teksttokens. We merken echter op dat de meeste real-world scenario's niet zo'n uitgebreid aantal visuele tokens vereisen. Hoewel de prestaties aanzienlijk dalen in een kleine subset van OCR-gerelateerde taken, presteren modellen nog steeds nauwkeurig in de meeste andere algemene VQA-taken met slechts 1/4 resolutie. Daarom stellen we voor om verschillende samples dynamisch te verwerken met verschillende resoluties, en presenteren we een nieuw paradigma voor visuele tokencompressie, genaamd VisionThink. Het begint met een verkleinde afbeelding en beslist slim of deze voldoende is voor probleemoplossing. Anders kan het model een speciaal token uitvoeren om de hogere resolutie afbeelding aan te vragen. In vergelijking met bestaande Efficient VLM-methoden die tokens comprimeren met vaste snoeiverhoudingen of drempelwaarden, beslist VisionThink autonoom of tokens geval per geval moeten worden gecomprimeerd. Als gevolg toont het sterke fijnmazige visuele begripscapaciteiten op OCR-gerelateerde taken, en bespaart het tegelijkertijd aanzienlijke visuele tokens op eenvoudigere taken. We nemen reinforcement learning over en stellen de LLM-as-Judge-strategie voor om RL succesvol toe te passen op algemene VQA-taken. Bovendien ontwerpen we zorgvuldig een beloningsfunctie en strafmechanisme om een stabiele en redelijke verhouding van afbeeldingsresize-aanroepen te bereiken. Uitgebreide experimenten demonstreren de superioriteit, efficiëntie en effectiviteit van onze methode. Onze code is beschikbaar op https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.