VisionReasoner : Perception visuelle et raisonnement unifiés via l'apprentissage par renforcement
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
May 17, 2025
Auteurs: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI
Résumé
Les grands modèles vision-langage démontrent des capacités intrinsèques à traiter diverses tâches de perception visuelle. Dans cet article, nous présentons VisionReasoner, un cadre unifié capable de raisonner et de résoudre plusieurs tâches de perception visuelle au sein d'un même modèle. Plus précisément, en concevant de nouvelles stratégies d'apprentissage cognitif multi-objectifs et une reformulation systématique des tâches, VisionReasoner améliore ses capacités de raisonnement pour analyser les entrées visuelles et aborde diverses tâches de perception dans un cadre unifié. Le modèle génère un processus de raisonnement structuré avant de fournir les résultats souhaités en réponse aux requêtes des utilisateurs. Pour évaluer rigoureusement les capacités unifiées de perception visuelle, nous testons VisionReasoner sur dix tâches variées couvrant trois domaines critiques : la détection, la segmentation et le décompte. Les résultats expérimentaux montrent que VisionReasoner obtient des performances supérieures en tant que modèle unifié, surpassant Qwen2.5VL avec des marges relatives de 29,1 % sur COCO (détection), 22,1 % sur ReasonSeg (segmentation) et 15,3 % sur CountBench (décompte).
English
Large vision-language models exhibit inherent capabilities to handle diverse
visual perception tasks. In this paper, we introduce VisionReasoner, a unified
framework capable of reasoning and solving multiple visual perception tasks
within a shared model. Specifically, by designing novel multi-object cognitive
learning strategies and systematic task reformulation, VisionReasoner enhances
its reasoning capabilities to analyze visual inputs, and addresses diverse
perception tasks in a unified framework. The model generates a structured
reasoning process before delivering the desired outputs responding to user
queries. To rigorously assess unified visual perception capabilities, we
evaluate VisionReasoner on ten diverse tasks spanning three critical domains:
detection, segmentation, and counting. Experimental results show that
VisionReasoner achieves superior performance as a unified model, outperforming
Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg
(segmentation), and 15.3% on CountBench (counting).Summary
AI-Generated Summary