ChatPaper.aiChatPaper

VisionReasoner: Percepción Visual Unificada y Razonamiento mediante Aprendizaje por Refuerzo

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

May 17, 2025
Autores: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI

Resumen

Los grandes modelos de visión y lenguaje exhiben capacidades inherentes para manejar diversas tareas de percepción visual. En este artículo, presentamos VisionReasoner, un marco unificado capaz de razonar y resolver múltiples tareas de percepción visual dentro de un modelo compartido. Específicamente, mediante el diseño de novedosas estrategias de aprendizaje cognitivo multiobjetivo y la reformulación sistemática de tareas, VisionReasoner mejora sus capacidades de razonamiento para analizar entradas visuales y aborda diversas tareas de percepción en un marco unificado. El modelo genera un proceso de razonamiento estructurado antes de entregar los resultados deseados en respuesta a las consultas del usuario. Para evaluar rigurosamente las capacidades unificadas de percepción visual, evaluamos VisionReasoner en diez tareas diversas que abarcan tres dominios críticos: detección, segmentación y conteo. Los resultados experimentales muestran que VisionReasoner logra un rendimiento superior como modelo unificado, superando a Qwen2.5VL con márgenes relativos del 29.1% en COCO (detección), 22.1% en ReasonSeg (segmentación) y 15.3% en CountBench (conteo).
English
Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).

Summary

AI-Generated Summary

PDF142May 20, 2025