ChatPaper.aiChatPaper

VisionReasoner: Vereinheitlichte visuelle Wahrnehmung und logisches Denken durch Reinforcement Learning

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

May 17, 2025
Autoren: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI

Zusammenfassung

Große Vision-Sprach-Modelle zeigen inhärente Fähigkeiten, um diverse visuelle Wahrnehmungsaufgaben zu bewältigen. In diesem Artikel stellen wir VisionReasoner vor, ein einheitliches Framework, das in der Lage ist, innerhalb eines gemeinsamen Modells zu schlussfolgern und mehrere visuelle Wahrnehmungsaufgaben zu lösen. Insbesondere durch die Entwicklung neuartiger Multi-Objekt-Kognitionslernstrategien und systematischer Aufgabenreformulierung verbessert VisionReasoner seine Fähigkeiten zur Analyse visueller Eingaben und bewältigt diverse Wahrnehmungsaufgaben in einem einheitlichen Framework. Das Modell generiert einen strukturierten Schlussfolgerungsprozess, bevor es die gewünschten Ausgaben liefert, die auf Benutzeranfragen reagieren. Um die einheitlichen visuellen Wahrnehmungsfähigkeiten rigoros zu bewerten, evaluieren wir VisionReasoner anhand von zehn verschiedenen Aufgaben, die drei kritische Domänen abdecken: Detektion, Segmentierung und Zählung. Die experimentellen Ergebnisse zeigen, dass VisionReasoner als einheitliches Modell eine überlegene Leistung erzielt und Qwen2.5VL mit relativen Margen von 29,1 % auf COCO (Detektion), 22,1 % auf ReasonSeg (Segmentierung) und 15,3 % auf CountBench (Zählung) übertrifft.
English
Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).

Summary

AI-Generated Summary

PDF142May 20, 2025