VisionReasoner: Единая система визуального восприятия и логического вывода с использованием обучения с подкреплением
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
May 17, 2025
Авторы: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia
cs.AI
Аннотация
Крупные модели, работающие с визуальными и языковыми данными, демонстрируют врожденные способности для решения разнообразных задач визуального восприятия. В данной статье мы представляем VisionReasoner — унифицированную структуру, способную рассуждать и решать множество задач визуального восприятия в рамках единой модели. В частности, благодаря разработке новых стратегий многозадачного когнитивного обучения и систематической реформулировке задач, VisionReasoner улучшает свои способности к анализу визуальных данных и решает разнообразные задачи восприятия в единой структуре. Модель генерирует структурированный процесс рассуждений перед тем, как предоставить желаемые результаты в ответ на запросы пользователей. Для тщательной оценки унифицированных возможностей визуального восприятия мы тестируем VisionReasoner на десяти различных задачах, охватывающих три ключевые области: обнаружение, сегментацию и подсчет. Результаты экспериментов показывают, что VisionReasoner демонстрирует превосходную производительность в качестве унифицированной модели, превосходя Qwen2.5VL с относительными отрывами в 29,1% на COCO (обнаружение), 22,1% на ReasonSeg (сегментация) и 15,3% на CountBench (подсчет).
English
Large vision-language models exhibit inherent capabilities to handle diverse
visual perception tasks. In this paper, we introduce VisionReasoner, a unified
framework capable of reasoning and solving multiple visual perception tasks
within a shared model. Specifically, by designing novel multi-object cognitive
learning strategies and systematic task reformulation, VisionReasoner enhances
its reasoning capabilities to analyze visual inputs, and addresses diverse
perception tasks in a unified framework. The model generates a structured
reasoning process before delivering the desired outputs responding to user
queries. To rigorously assess unified visual perception capabilities, we
evaluate VisionReasoner on ten diverse tasks spanning three critical domains:
detection, segmentation, and counting. Experimental results show that
VisionReasoner achieves superior performance as a unified model, outperforming
Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg
(segmentation), and 15.3% on CountBench (counting).Summary
AI-Generated Summary