VisionThink: Slim en Efficiënt Vision Taalmodel via Reinforcement Learning

Samenvatting

Recente vooruitgang in visie-taalmodellen (VLMs) heeft de prestaties verbeterd door het aantal visuele tokens te vergroten, die vaak aanzienlijk langer zijn dan teksttokens. We merken echter op dat de meeste real-world scenario's niet zo'n uitgebreid aantal visuele tokens vereisen. Hoewel de prestaties aanzienlijk dalen in een kleine subset van OCR-gerelateerde taken, presteren modellen nog steeds nauwkeurig in de meeste andere algemene VQA-taken met slechts 1/4 resolutie. Daarom stellen we voor om verschillende samples dynamisch te verwerken met verschillende resoluties, en presenteren we een nieuw paradigma voor visuele tokencompressie, genaamd VisionThink. Het begint met een verkleinde afbeelding en beslist slim of deze voldoende is voor probleemoplossing. Anders kan het model een speciaal token uitvoeren om de hogere resolutie afbeelding aan te vragen. In vergelijking met bestaande Efficient VLM-methoden die tokens comprimeren met vaste snoeiverhoudingen of drempelwaarden, beslist VisionThink autonoom of tokens geval per geval moeten worden gecomprimeerd. Als gevolg toont het sterke fijnmazige visuele begripscapaciteiten op OCR-gerelateerde taken, en bespaart het tegelijkertijd aanzienlijke visuele tokens op eenvoudigere taken. We nemen reinforcement learning over en stellen de LLM-as-Judge-strategie voor om RL succesvol toe te passen op algemene VQA-taken. Bovendien ontwerpen we zorgvuldig een beloningsfunctie en strafmechanisme om een stabiele en redelijke verhouding van afbeeldingsresize-aanroepen te bereiken. Uitgebreide experimenten demonstreren de superioriteit, efficiëntie en effectiviteit van onze methode. Onze code is beschikbaar op https://github.com/dvlab-research/VisionThink.

English

Recent advancements in vision-language models (VLMs) have improved performance by increasing the number of visual tokens, which are often significantly longer than text tokens. However, we observe that most real-world scenarios do not require such an extensive number of visual tokens. While the performance drops significantly in a small subset of OCR-related tasks, models still perform accurately in most other general VQA tasks with only 1/4 resolution. Therefore, we propose to dynamically process distinct samples with different resolutions, and present a new paradigm for visual token compression, namely, VisionThink. It starts with a downsampled image and smartly decides whether it is sufficient for problem solving. Otherwise, the model could output a special token to request the higher-resolution image. Compared to existing Efficient VLM methods that compress tokens using fixed pruning ratios or thresholds, VisionThink autonomously decides whether to compress tokens case by case. As a result, it demonstrates strong fine-grained visual understanding capability on OCR-related tasks, and meanwhile saves substantial visual tokens on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge strategy to successfully apply RL to general VQA tasks. Moreover, we carefully design a reward function and penalty mechanism to achieve a stable and reasonable image resize call ratio. Extensive experiments demonstrate the superiority, efficiency, and effectiveness of our method. Our code is available at https://github.com/dvlab-research/VisionThink.

VisionThink: Slim en Efficiënt Vision Taalmodel via Reinforcement Learning

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Samenvatting

Support