ChatPaper.aiChatPaper

VisionThink: Умная и эффективная модель обработки визуальных и языковых данных с использованием обучения с подкреплением

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

July 17, 2025
Авторы: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia
cs.AI

Аннотация

Последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), позволили повысить производительность за счет увеличения количества визуальных токенов, которые часто значительно длиннее текстовых токенов. Однако мы наблюдаем, что в большинстве реальных сценариев не требуется такого большого количества визуальных токенов. Хотя производительность значительно снижается в небольшом подмножестве задач, связанных с оптическим распознаванием символов (OCR), модели по-прежнему точно работают в большинстве других общих задач визуального вопросно-ответного взаимодействия (VQA) при использовании всего 1/4 разрешения. Поэтому мы предлагаем динамически обрабатывать различные образцы с разными разрешениями и представляем новую парадигму сжатия визуальных токенов, а именно VisionThink. Она начинается с уменьшенного изображения и интеллектуально определяет, достаточно ли этого для решения задачи. В противном случае модель может выдать специальный токен для запроса изображения с более высоким разрешением. В отличие от существующих методов Efficient VLM, которые сжимают токены с использованием фиксированных коэффициентов обрезки или пороговых значений, VisionThink автономно решает, сжимать ли токены в каждом конкретном случае. В результате она демонстрирует мощные возможности детального визуального понимания в задачах, связанных с OCR, и одновременно экономит значительное количество визуальных токенов в более простых задачах. Мы применяем обучение с подкреплением (RL) и предлагаем стратегию LLM-as-Judge для успешного применения RL к общим задачам VQA. Кроме того, мы тщательно разрабатываем функцию вознаграждения и механизм штрафов для достижения стабильного и разумного соотношения вызовов изменения размера изображения. Многочисленные эксперименты демонстрируют превосходство, эффективность и результативность нашего метода. Наш код доступен по адресу https://github.com/dvlab-research/VisionThink.
English
Recent advancements in vision-language models (VLMs) have improved performance by increasing the number of visual tokens, which are often significantly longer than text tokens. However, we observe that most real-world scenarios do not require such an extensive number of visual tokens. While the performance drops significantly in a small subset of OCR-related tasks, models still perform accurately in most other general VQA tasks with only 1/4 resolution. Therefore, we propose to dynamically process distinct samples with different resolutions, and present a new paradigm for visual token compression, namely, VisionThink. It starts with a downsampled image and smartly decides whether it is sufficient for problem solving. Otherwise, the model could output a special token to request the higher-resolution image. Compared to existing Efficient VLM methods that compress tokens using fixed pruning ratios or thresholds, VisionThink autonomously decides whether to compress tokens case by case. As a result, it demonstrates strong fine-grained visual understanding capability on OCR-related tasks, and meanwhile saves substantial visual tokens on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge strategy to successfully apply RL to general VQA tasks. Moreover, we carefully design a reward function and penalty mechanism to achieve a stable and reasonable image resize call ratio. Extensive experiments demonstrate the superiority, efficiency, and effectiveness of our method. Our code is available at https://github.com/dvlab-research/VisionThink.
PDF491July 18, 2025