VisionReasoner: Percepção Visual e Raciocínio Unificados via Aprendizado por Reforço
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
May 17, 2025
Autores: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI
Resumo
Grandes modelos de visão e linguagem exibem capacidades inerentes para lidar com diversas tarefas de percepção visual. Neste artigo, apresentamos o VisionReasoner, um framework unificado capaz de raciocinar e resolver múltiplas tarefas de percepção visual dentro de um modelo compartilhado. Especificamente, ao projetar novas estratégias de aprendizagem cognitiva multiobjetivo e reformulação sistemática de tarefas, o VisionReasoner aprimora suas capacidades de raciocínio para analisar entradas visuais e abordar diversas tarefas de percepção em um framework unificado. O modelo gera um processo de raciocínio estruturado antes de entregar os resultados desejados em resposta às consultas do usuário. Para avaliar rigorosamente as capacidades unificadas de percepção visual, avaliamos o VisionReasoner em dez tarefas diversas abrangendo três domínios críticos: detecção, segmentação e contagem. Os resultados experimentais mostram que o VisionReasoner alcança desempenho superior como modelo unificado, superando o Qwen2.5VL com margens relativas de 29,1% no COCO (detecção), 22,1% no ReasonSeg (segmentação) e 15,3% no CountBench (contagem).
English
Large vision-language models exhibit inherent capabilities to handle diverse
visual perception tasks. In this paper, we introduce VisionReasoner, a unified
framework capable of reasoning and solving multiple visual perception tasks
within a shared model. Specifically, by designing novel multi-object cognitive
learning strategies and systematic task reformulation, VisionReasoner enhances
its reasoning capabilities to analyze visual inputs, and addresses diverse
perception tasks in a unified framework. The model generates a structured
reasoning process before delivering the desired outputs responding to user
queries. To rigorously assess unified visual perception capabilities, we
evaluate VisionReasoner on ten diverse tasks spanning three critical domains:
detection, segmentation, and counting. Experimental results show that
VisionReasoner achieves superior performance as a unified model, outperforming
Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg
(segmentation), and 15.3% on CountBench (counting).