VisionThink : Modèle de Langage Visuel Intelligent et Efficace via l'Apprentissage par Renforcement
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
papers.authors: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
papers.abstract
Les avancées récentes dans les modèles vision-langage (VLMs) ont amélioré les performances en augmentant le nombre de tokens visuels, qui sont souvent nettement plus longs que les tokens textuels. Cependant, nous observons que la plupart des scénarios réels ne nécessitent pas un nombre aussi élevé de tokens visuels. Bien que les performances chutent significativement dans un petit sous-ensemble de tâches liées à la reconnaissance optique de caractères (OCR), les modèles restent précis dans la plupart des autres tâches générales de question-réponse visuelle (VQA) avec seulement 1/4 de la résolution. Par conséquent, nous proposons de traiter dynamiquement les échantillons distincts avec différentes résolutions, et présentons un nouveau paradigme pour la compression des tokens visuels, nommé VisionThink. Il commence par une image sous-échantillonnée et décide intelligemment si elle est suffisante pour résoudre le problème. Sinon, le modèle peut produire un token spécial pour demander l'image en haute résolution. Comparé aux méthodes Efficient VLM existantes qui compressent les tokens en utilisant des ratios ou des seuils fixes, VisionThink décide de manière autonome s'il faut compresser les tokens au cas par cas. En conséquence, il démontre une forte capacité de compréhension visuelle fine sur les tâches liées à l'OCR, tout en économisant un nombre substantiel de tokens visuels sur des tâches plus simples. Nous adoptons l'apprentissage par renforcement et proposons la stratégie LLM-as-Judge pour appliquer avec succès l'apprentissage par renforcement aux tâches générales de VQA. De plus, nous concevons soigneusement une fonction de récompense et un mécanisme de pénalité pour atteindre un ratio d'appel de redimensionnement d'image stable et raisonnable. Des expériences approfondies démontrent la supériorité, l'efficacité et l'efficience de notre méthode. Notre code est disponible à l'adresse https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.