VisionThink: Intelligentes und effizientes Vision-Language-Modell durch Reinforcement Learning
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
papers.authors: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
papers.abstract
Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben die Leistung durch die Erhöhung der Anzahl visueller Tokens verbessert, die oft deutlich länger sind als Text-Tokens. Wir beobachten jedoch, dass die meisten realen Szenarien keine so umfangreiche Anzahl visueller Tokens erfordern. Während die Leistung in einer kleinen Teilmenge von OCR-bezogenen Aufgaben deutlich abfällt, erzielen Modelle in den meisten anderen allgemeinen VQA-Aufgaben mit nur 1/4 der Auflösung weiterhin präzise Ergebnisse. Daher schlagen wir vor, unterschiedliche Proben dynamisch mit verschiedenen Auflösungen zu verarbeiten, und präsentieren ein neues Paradigma für die Kompression visueller Tokens, nämlich VisionThink. Es beginnt mit einem heruntergerechneten Bild und entscheidet intelligent, ob dies für die Problemlösung ausreicht. Andernfalls könnte das Modell ein spezielles Token ausgeben, um das Bild in höherer Auflösung anzufordern. Im Vergleich zu bestehenden Efficient-VLM-Methoden, die Tokens mit festen Beschneidungsraten oder Schwellenwerten komprimieren, entscheidet VisionThink autonom, ob Tokens fallweise komprimiert werden sollen. Dadurch zeigt es eine starke Fähigkeit zur feingranularen visuellen Verständnis in OCR-bezogenen Aufgaben und spart gleichzeitig erhebliche visuelle Tokens bei einfacheren Aufgaben ein. Wir setzen Reinforcement Learning ein und schlagen die LLM-as-Judge-Strategie vor, um RL erfolgreich auf allgemeine VQA-Aufgaben anzuwenden. Darüber hinaus entwerfen wir sorgfältig eine Belohnungsfunktion und einen Strafmechanismus, um ein stabiles und angemessenes Verhältnis von Bildgrößenänderungsanforderungen zu erreichen. Umfangreiche Experimente demonstrieren die Überlegenheit, Effizienz und Wirksamkeit unserer Methode. Unser Code ist verfügbar unter https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.