VisionReasoner: Geïntegreerde Visuele Waarneming en Redeneren via Reinforcement Learning
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
May 17, 2025
Auteurs: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI
Samenvatting
Grote visueel-taalmodelen vertonen inherente capaciteiten om diverse visuele waarnemingstaken te verwerken. In dit artikel introduceren we VisionReasoner, een uniform raamwerk dat in staat is om te redeneren en meerdere visuele waarnemingstaken op te lossen binnen een gedeeld model. Specifiek versterkt VisionReasoner zijn redeneervaardigheden door het ontwerpen van nieuwe multi-object cognitieve leerstrategieën en systematische taakherformulering, waardoor het visuele inputs kan analyseren en diverse waarnemingstaken in een uniform raamwerk kan aanpakken. Het model genereert een gestructureerd redeneerproces voordat het de gewenste uitvoer levert in reactie op gebruikersvragen. Om de uniforme visuele waarnemingscapaciteiten rigoureus te beoordelen, evalueren we VisionReasoner op tien diverse taken die drie kritieke domeinen beslaan: detectie, segmentatie en tellen. Experimentele resultaten tonen aan dat VisionReasoner superieure prestaties behaalt als een uniform model, waarbij het Qwen2.5VL overtreft met relatieve marges van 29,1% op COCO (detectie), 22,1% op ReasonSeg (segmentatie) en 15,3% op CountBench (tellen).
English
Large vision-language models exhibit inherent capabilities to handle diverse
visual perception tasks. In this paper, we introduce VisionReasoner, a unified
framework capable of reasoning and solving multiple visual perception tasks
within a shared model. Specifically, by designing novel multi-object cognitive
learning strategies and systematic task reformulation, VisionReasoner enhances
its reasoning capabilities to analyze visual inputs, and addresses diverse
perception tasks in a unified framework. The model generates a structured
reasoning process before delivering the desired outputs responding to user
queries. To rigorously assess unified visual perception capabilities, we
evaluate VisionReasoner on ten diverse tasks spanning three critical domains:
detection, segmentation, and counting. Experimental results show that
VisionReasoner achieves superior performance as a unified model, outperforming
Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg
(segmentation), and 15.3% on CountBench (counting).Summary
AI-Generated Summary