VisionReasoner: Percezione Visiva e Ragionamento Unificati tramite Apprendimento per Rinforzo
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
May 17, 2025
Autori: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI
Abstract
I grandi modelli visione-linguaggio dimostrano capacità intrinseche nel gestire una vasta gamma di compiti di percezione visiva. In questo articolo, presentiamo VisionReasoner, un framework unificato in grado di ragionare e risolvere molteplici compiti di percezione visiva all'interno di un unico modello. Nello specifico, attraverso la progettazione di innovative strategie di apprendimento cognitivo multi-oggetto e una riformulazione sistematica dei compiti, VisionReasoner potenzia le sue capacità di ragionamento per analizzare input visivi e affrontare diversi compiti di percezione in un framework unificato. Il modello genera un processo di ragionamento strutturato prima di fornire gli output desiderati in risposta alle query degli utenti. Per valutare rigorosamente le capacità unificate di percezione visiva, testiamo VisionReasoner su dieci compiti diversi che coprono tre domini critici: rilevamento, segmentazione e conteggio. I risultati sperimentali mostrano che VisionReasoner raggiunge prestazioni superiori come modello unificato, superando Qwen2.5VL con margini relativi del 29,1% su COCO (rilevamento), del 22,1% su ReasonSeg (segmentazione) e del 15,3% su CountBench (conteggio).
English
Large vision-language models exhibit inherent capabilities to handle diverse
visual perception tasks. In this paper, we introduce VisionReasoner, a unified
framework capable of reasoning and solving multiple visual perception tasks
within a shared model. Specifically, by designing novel multi-object cognitive
learning strategies and systematic task reformulation, VisionReasoner enhances
its reasoning capabilities to analyze visual inputs, and addresses diverse
perception tasks in a unified framework. The model generates a structured
reasoning process before delivering the desired outputs responding to user
queries. To rigorously assess unified visual perception capabilities, we
evaluate VisionReasoner on ten diverse tasks spanning three critical domains:
detection, segmentation, and counting. Experimental results show that
VisionReasoner achieves superior performance as a unified model, outperforming
Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg
(segmentation), and 15.3% on CountBench (counting).