ChatPaper.aiChatPaper

VisionReasoner: 강화 학습을 통한 통합 시각 인지 및 추론

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

May 17, 2025
저자: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI

초록

대규모 시각-언어 모델은 다양한 시각 인식 작업을 처리할 수 있는 내재적 능력을 보여줍니다. 본 논문에서는 여러 시각 인식 작업을 공유 모델 내에서 추론하고 해결할 수 있는 통합 프레임워크인 VisionReasoner를 소개합니다. 구체적으로, 새로운 다중 객체 인지 학습 전략과 체계적인 작업 재구성을 설계함으로써 VisionReasoner는 시각 입력을 분석하는 추론 능력을 강화하고 다양한 인식 작업을 통합 프레임워크 내에서 처리합니다. 이 모델은 사용자 질의에 응답하여 원하는 출력을 제공하기 전에 구조화된 추론 과정을 생성합니다. 통합 시각 인식 능력을 엄격하게 평가하기 위해, 우리는 VisionReasoner를 탐지, 분할, 계수라는 세 가지 중요한 도메인에 걸친 열 가지 다양한 작업에서 평가합니다. 실험 결과, VisionReasoner는 통합 모델로서 우수한 성능을 달성하며, COCO(탐지)에서 Qwen2.5VL 대비 29.1%, ReasonSeg(분할)에서 22.1%, CountBench(계수)에서 15.3%의 상대적 차이로 앞섰습니다.
English
Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).

Summary

AI-Generated Summary

PDF131May 20, 2025