VisionReasoner: Единая система визуального восприятия и логического вывода с использованием обучения с подкреплением

Аннотация

Крупные модели, работающие с визуальными и языковыми данными, демонстрируют врожденные способности для решения разнообразных задач визуального восприятия. В данной статье мы представляем VisionReasoner — унифицированную структуру, способную рассуждать и решать множество задач визуального восприятия в рамках единой модели. В частности, благодаря разработке новых стратегий многозадачного когнитивного обучения и систематической реформулировке задач, VisionReasoner улучшает свои способности к анализу визуальных данных и решает разнообразные задачи восприятия в единой структуре. Модель генерирует структурированный процесс рассуждений перед тем, как предоставить желаемые результаты в ответ на запросы пользователей. Для тщательной оценки унифицированных возможностей визуального восприятия мы тестируем VisionReasoner на десяти различных задачах, охватывающих три ключевые области: обнаружение, сегментацию и подсчет. Результаты экспериментов показывают, что VisionReasoner демонстрирует превосходную производительность в качестве унифицированной модели, превосходя Qwen2.5VL с относительными отрывами в 29,1% на COCO (обнаружение), 22,1% на ReasonSeg (сегментация) и 15,3% на CountBench (подсчет).

English

Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).