R1-Onevision: Развитие обобщённого мультимодального мышления через кросс-модальную формализацию
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
March 13, 2025
Авторы: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI
Аннотация
Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению в сложных текстовых задачах. Однако мультимодальное рассуждение, требующее интеграции визуальной и текстовой информации, остается значительной проблемой. Существующие визуально-языковые модели часто испытывают трудности с эффективным анализом и рассуждением на основе визуального контента, что приводит к неоптимальной производительности в сложных задачах рассуждения. Более того, отсутствие всеобъемлющих бенчмарков затрудняет точную оценку мультимодальных способностей к рассуждению. В данной статье мы представляем R1-Onevision, мультимодальную модель рассуждения, разработанную для устранения разрыва между визуальным восприятием и глубоким рассуждением. Для достижения этой цели мы предлагаем кросс-модальный конвейер рассуждения, который преобразует изображения в формальные текстовые представления, обеспечивая точное рассуждение на основе языка. Используя этот конвейер, мы создаем набор данных R1-Onevision, который предоставляет детальные, пошаговые аннотации мультимодального рассуждения в различных областях. Мы также развиваем модель R1-Onevision с помощью контролируемой тонкой настройки и обучения с подкреплением, чтобы развить продвинутые способности к рассуждению и устойчивую генерализацию. Для всесторонней оценки мультимодальной производительности рассуждения на разных уровнях мы представляем R1-Onevision-Bench, бенчмарк, соответствующий этапам человеческого образования, охватывающий экзамены от средней школы до университета и далее. Экспериментальные результаты показывают, что R1-Onevision достигает наилучших результатов, превосходя модели, такие как GPT-4o и Qwen2.5-VL, на нескольких сложных мультимодальных бенчмарках рассуждения.
English
Large Language Models have demonstrated remarkable reasoning capability in
complex textual tasks. However, multimodal reasoning, which requires
integrating visual and textual information, remains a significant challenge.
Existing visual-language models often struggle to effectively analyze and
reason visual content, resulting in suboptimal performance on complex reasoning
tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate
assessment of multimodal reasoning capabilities. In this paper, we introduce
R1-Onevision, a multimodal reasoning model designed to bridge the gap between
visual perception and deep reasoning. To achieve this, we propose a cross-modal
reasoning pipeline that transforms images into formal textural representations,
enabling precise language-based reasoning. Leveraging this pipeline, we
construct the R1-Onevision dataset which provides detailed, step-by-step
multimodal reasoning annotations across diverse domains. We further develop the
R1-Onevision model through supervised fine-tuning and reinforcement learning to
cultivate advanced reasoning and robust generalization abilities. To
comprehensively evaluate multimodal reasoning performance across different
grades, we introduce R1-Onevision-Bench, a benchmark aligned with human
educational stages, covering exams from junior high school to university and
beyond. Experimental results show that R1-Onevision achieves state-of-the-art
performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple
challenging multimodal reasoning benchmarks.Summary
AI-Generated Summary