VisionReasoner: Geïntegreerde Visuele Waarneming en Redeneren via Reinforcement Learning

Samenvatting

Grote visueel-taalmodelen vertonen inherente capaciteiten om diverse visuele waarnemingstaken te verwerken. In dit artikel introduceren we VisionReasoner, een uniform raamwerk dat in staat is om te redeneren en meerdere visuele waarnemingstaken op te lossen binnen een gedeeld model. Specifiek versterkt VisionReasoner zijn redeneervaardigheden door het ontwerpen van nieuwe multi-object cognitieve leerstrategieën en systematische taakherformulering, waardoor het visuele inputs kan analyseren en diverse waarnemingstaken in een uniform raamwerk kan aanpakken. Het model genereert een gestructureerd redeneerproces voordat het de gewenste uitvoer levert in reactie op gebruikersvragen. Om de uniforme visuele waarnemingscapaciteiten rigoureus te beoordelen, evalueren we VisionReasoner op tien diverse taken die drie kritieke domeinen beslaan: detectie, segmentatie en tellen. Experimentele resultaten tonen aan dat VisionReasoner superieure prestaties behaalt als een uniform model, waarbij het Qwen2.5VL overtreft met relatieve marges van 29,1% op COCO (detectie), 22,1% op ReasonSeg (segmentatie) en 15,3% op CountBench (tellen).

English

Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).

VisionReasoner: Geïntegreerde Visuele Waarneming en Redeneren via Reinforcement Learning

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

Samenvatting

Support