VisionThink: 強化学習によるスマートで効率的な視覚言語モデル
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
著者: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
要旨
近年の視覚言語モデル(VLM)の進歩により、視覚トークンの数を増やすことで性能が向上してきた。しかし、視覚トークンはテキストトークンよりも大幅に長いことが多い。我々は、現実世界のほとんどのシナリオでは、これほど多くの視覚トークンを必要としないことを観察した。OCR関連のタスクの一部では性能が大幅に低下するが、他の一般的なVQAタスクでは、解像度を1/4にしてもモデルは正確に動作する。そこで、異なるサンプルを異なる解像度で動的に処理し、視覚トークン圧縮の新しいパラダイムであるVisionThinkを提案する。VisionThinkは、ダウンサンプリングされた画像から始め、問題解決に十分かどうかを賢く判断する。十分でない場合、モデルは特別なトークンを出力して高解像度の画像を要求することができる。既存の効率的なVLM手法が固定のプルーニング比率や閾値を使用してトークンを圧縮するのに対し、VisionThinkはケースバイケースでトークンを圧縮するかどうかを自律的に決定する。その結果、OCR関連のタスクでは細かい視覚理解能力を示し、一方でより単純なタスクでは大幅な視覚トークンの節約を実現する。我々は強化学習を採用し、LLM-as-Judge戦略を提案することで、一般的なVQAタスクにRLを成功裏に適用した。さらに、安定した合理的な画像リサイズ呼び出し比率を達成するために、報酬関数とペナルティメカニズムを慎重に設計した。広範な実験により、我々の手法の優位性、効率性、有効性が実証された。コードはhttps://github.com/dvlab-research/VisionThinkで公開されている。
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.