VisionThink: Modelo de Linguagem Visual Inteligente e Eficiente via Aprendizado por Reforço
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
Autores: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
Resumo
Os recentes avanços em modelos de visão e linguagem (VLMs) têm melhorado o desempenho ao aumentar o número de tokens visuais, que frequentemente são significativamente mais longos do que os tokens de texto. No entanto, observamos que a maioria dos cenários do mundo real não exige um número tão extenso de tokens visuais. Embora o desempenho caia significativamente em um pequeno subconjunto de tarefas relacionadas a OCR, os modelos ainda apresentam precisão na maioria das outras tarefas gerais de VQA (Visual Question Answering) com apenas 1/4 da resolução. Portanto, propomos processar dinamicamente amostras distintas com diferentes resoluções e apresentamos um novo paradigma para compressão de tokens visuais, denominado VisionThink. Ele começa com uma imagem reduzida e decide de forma inteligente se ela é suficiente para resolver o problema. Caso contrário, o modelo pode emitir um token especial para solicitar a imagem em alta resolução. Em comparação com os métodos existentes de VLM Eficiente que comprimem tokens usando taxas de poda ou limiares fixos, o VisionThink decide autonomamente se deve comprimir os tokens caso a caso. Como resultado, ele demonstra uma forte capacidade de compreensão visual detalhada em tarefas relacionadas a OCR e, ao mesmo tempo, economiza uma quantidade substancial de tokens visuais em tarefas mais simples. Adotamos o aprendizado por reforço e propomos a estratégia LLM-as-Judge para aplicar com sucesso o RL a tarefas gerais de VQA. Além disso, projetamos cuidadosamente uma função de recompensa e um mecanismo de penalidade para alcançar uma taxa de redimensionamento de imagem estável e razoável. Experimentos extensivos demonstram a superioridade, eficiência e eficácia do nosso método. Nosso código está disponível em https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.