ChatPaper.aiChatPaper

VisionReasoner: Percezione Visiva e Ragionamento Unificati tramite Apprendimento per Rinforzo

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

May 17, 2025
Autori: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI

Abstract

I grandi modelli visione-linguaggio dimostrano capacità intrinseche nel gestire una vasta gamma di compiti di percezione visiva. In questo articolo, presentiamo VisionReasoner, un framework unificato in grado di ragionare e risolvere molteplici compiti di percezione visiva all'interno di un unico modello. Nello specifico, attraverso la progettazione di innovative strategie di apprendimento cognitivo multi-oggetto e una riformulazione sistematica dei compiti, VisionReasoner potenzia le sue capacità di ragionamento per analizzare input visivi e affrontare diversi compiti di percezione in un framework unificato. Il modello genera un processo di ragionamento strutturato prima di fornire gli output desiderati in risposta alle query degli utenti. Per valutare rigorosamente le capacità unificate di percezione visiva, testiamo VisionReasoner su dieci compiti diversi che coprono tre domini critici: rilevamento, segmentazione e conteggio. I risultati sperimentali mostrano che VisionReasoner raggiunge prestazioni superiori come modello unificato, superando Qwen2.5VL con margini relativi del 29,1% su COCO (rilevamento), del 22,1% su ReasonSeg (segmentazione) e del 15,3% su CountBench (conteggio).
English
Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).
PDF182May 20, 2025