ChatPaper.aiChatPaper

VisionReasoner: Percepção Visual e Raciocínio Unificados via Aprendizado por Reforço

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

May 17, 2025
Autores: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI

Resumo

Grandes modelos de visão e linguagem exibem capacidades inerentes para lidar com diversas tarefas de percepção visual. Neste artigo, apresentamos o VisionReasoner, um framework unificado capaz de raciocinar e resolver múltiplas tarefas de percepção visual dentro de um modelo compartilhado. Especificamente, ao projetar novas estratégias de aprendizagem cognitiva multiobjetivo e reformulação sistemática de tarefas, o VisionReasoner aprimora suas capacidades de raciocínio para analisar entradas visuais e abordar diversas tarefas de percepção em um framework unificado. O modelo gera um processo de raciocínio estruturado antes de entregar os resultados desejados em resposta às consultas do usuário. Para avaliar rigorosamente as capacidades unificadas de percepção visual, avaliamos o VisionReasoner em dez tarefas diversas abrangendo três domínios críticos: detecção, segmentação e contagem. Os resultados experimentais mostram que o VisionReasoner alcança desempenho superior como modelo unificado, superando o Qwen2.5VL com margens relativas de 29,1% no COCO (detecção), 22,1% no ReasonSeg (segmentação) e 15,3% no CountBench (contagem).
English
Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).
PDF182May 20, 2025