VisionReasoner: Vereinheitlichte visuelle Wahrnehmung und logisches Denken durch Reinforcement Learning
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
May 17, 2025
Autoren: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle zeigen inhärente Fähigkeiten, um diverse visuelle Wahrnehmungsaufgaben zu bewältigen. In diesem Artikel stellen wir VisionReasoner vor, ein einheitliches Framework, das in der Lage ist, innerhalb eines gemeinsamen Modells zu schlussfolgern und mehrere visuelle Wahrnehmungsaufgaben zu lösen. Insbesondere durch die Entwicklung neuartiger Multi-Objekt-Kognitionslernstrategien und systematischer Aufgabenreformulierung verbessert VisionReasoner seine Fähigkeiten zur Analyse visueller Eingaben und bewältigt diverse Wahrnehmungsaufgaben in einem einheitlichen Framework. Das Modell generiert einen strukturierten Schlussfolgerungsprozess, bevor es die gewünschten Ausgaben liefert, die auf Benutzeranfragen reagieren. Um die einheitlichen visuellen Wahrnehmungsfähigkeiten rigoros zu bewerten, evaluieren wir VisionReasoner anhand von zehn verschiedenen Aufgaben, die drei kritische Domänen abdecken: Detektion, Segmentierung und Zählung. Die experimentellen Ergebnisse zeigen, dass VisionReasoner als einheitliches Modell eine überlegene Leistung erzielt und Qwen2.5VL mit relativen Margen von 29,1 % auf COCO (Detektion), 22,1 % auf ReasonSeg (Segmentierung) und 15,3 % auf CountBench (Zählung) übertrifft.
English
Large vision-language models exhibit inherent capabilities to handle diverse
visual perception tasks. In this paper, we introduce VisionReasoner, a unified
framework capable of reasoning and solving multiple visual perception tasks
within a shared model. Specifically, by designing novel multi-object cognitive
learning strategies and systematic task reformulation, VisionReasoner enhances
its reasoning capabilities to analyze visual inputs, and addresses diverse
perception tasks in a unified framework. The model generates a structured
reasoning process before delivering the desired outputs responding to user
queries. To rigorously assess unified visual perception capabilities, we
evaluate VisionReasoner on ten diverse tasks spanning three critical domains:
detection, segmentation, and counting. Experimental results show that
VisionReasoner achieves superior performance as a unified model, outperforming
Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg
(segmentation), and 15.3% on CountBench (counting).Summary
AI-Generated Summary