VisionThink: Modelo de Lenguaje Visual Inteligente y Eficiente mediante Aprendizaje por Refuerzo
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
July 17, 2025
Autores: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI
Resumen
Los avances recientes en los modelos de visión y lenguaje (VLMs) han mejorado el rendimiento al aumentar el número de tokens visuales, que suelen ser significativamente más largos que los tokens de texto. Sin embargo, observamos que la mayoría de los escenarios del mundo real no requieren un número tan extenso de tokens visuales. Aunque el rendimiento disminuye significativamente en un pequeño subconjunto de tareas relacionadas con OCR, los modelos aún funcionan con precisión en la mayoría de las otras tareas generales de VQA (Visual Question Answering) con solo 1/4 de la resolución. Por lo tanto, proponemos procesar dinámicamente muestras distintas con diferentes resoluciones y presentamos un nuevo paradigma para la compresión de tokens visuales, denominado VisionThink. Este comienza con una imagen reducida en resolución y decide de manera inteligente si es suficiente para resolver el problema. De lo contrario, el modelo podría generar un token especial para solicitar la imagen de mayor resolución. En comparación con los métodos existentes de VLM eficiente que comprimen tokens utilizando ratios de poda o umbrales fijos, VisionThink decide autónomamente si comprimir los tokens caso por caso. Como resultado, demuestra una fuerte capacidad de comprensión visual detallada en tareas relacionadas con OCR, mientras ahorra una cantidad sustancial de tokens visuales en tareas más simples. Adoptamos el aprendizaje por refuerzo y proponemos la estrategia LLM-as-Judge para aplicar con éxito RL (Reinforcement Learning) a tareas generales de VQA. Además, diseñamos cuidadosamente una función de recompensa y un mecanismo de penalización para lograr una proporción estable y razonable de llamadas de redimensionamiento de imagen. Experimentos extensos demuestran la superioridad, eficiencia y efectividad de nuestro método. Nuestro código está disponible en https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved
performance by increasing the number of visual tokens, which are often
significantly longer than text tokens. However, we observe that most real-world
scenarios do not require such an extensive number of visual tokens. While the
performance drops significantly in a small subset of OCR-related tasks, models
still perform accurately in most other general VQA tasks with only 1/4
resolution. Therefore, we propose to dynamically process distinct samples with
different resolutions, and present a new paradigm for visual token compression,
namely, VisionThink. It starts with a downsampled image and smartly decides
whether it is sufficient for problem solving. Otherwise, the model could output
a special token to request the higher-resolution image. Compared to existing
Efficient VLM methods that compress tokens using fixed pruning ratios or
thresholds, VisionThink autonomously decides whether to compress tokens case by
case. As a result, it demonstrates strong fine-grained visual understanding
capability on OCR-related tasks, and meanwhile saves substantial visual tokens
on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge
strategy to successfully apply RL to general VQA tasks. Moreover, we carefully
design a reward function and penalty mechanism to achieve a stable and
reasonable image resize call ratio. Extensive experiments demonstrate the
superiority, efficiency, and effectiveness of our method. Our code is available
at https://github.com/dvlab-research/VisionThink.