R1-Onevision: Fortschritt in der generalisierten multimodalen Argumentation durch cross-modale Formalisierung
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
March 13, 2025
Autoren: Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
cs.AI
Zusammenfassung
Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei der Bewältigung komplexer textbasierter Aufgaben gezeigt. Multimodales Denken, das die Integration visueller und textueller Informationen erfordert, bleibt jedoch eine erhebliche Herausforderung. Bestehende visuell-sprachliche Modelle haben oft Schwierigkeiten, visuelle Inhalte effektiv zu analysieren und zu interpretieren, was zu suboptimalen Leistungen bei komplexen Denkaufgaben führt. Darüber hinaus behindert das Fehlen umfassender Benchmarks die genaue Bewertung multimodaler Denkfähigkeiten. In diesem Artikel stellen wir R1-Onevision vor, ein multimodales Denkmodell, das die Lücke zwischen visueller Wahrnehmung und tiefgreifendem Denken schließen soll. Um dies zu erreichen, schlagen wir eine cross-modale Denkpipeline vor, die Bilder in formale textuelle Repräsentationen umwandelt und damit präzises sprachbasiertes Denken ermöglicht. Mit dieser Pipeline erstellen wir den R1-Onevision-Datensatz, der detaillierte, schrittweise multimodale Denkanmerkungen über verschiedene Domänen hinweg bietet. Wir entwickeln das R1-Onevision-Modell weiter durch überwachtes Fein-Tuning und Verstärkungslernen, um fortgeschrittene Denkfähigkeiten und robuste Generalisierungsfähigkeiten zu fördern. Um die multimodale Denkleistung über verschiedene Stufen hinweg umfassend zu bewerten, führen wir R1-Onevision-Bench ein, einen Benchmark, der an menschliche Bildungsstufen angepasst ist und Prüfungen von der Mittelschule über die Universität und darüber hinaus abdeckt. Experimentelle Ergebnisse zeigen, dass R1-Onevision Spitzenleistungen erzielt und Modelle wie GPT-4o und Qwen2.5-VL auf mehreren anspruchsvollen multimodalen Denkbenchmarks übertrifft.
English
Large Language Models have demonstrated remarkable reasoning capability in
complex textual tasks. However, multimodal reasoning, which requires
integrating visual and textual information, remains a significant challenge.
Existing visual-language models often struggle to effectively analyze and
reason visual content, resulting in suboptimal performance on complex reasoning
tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate
assessment of multimodal reasoning capabilities. In this paper, we introduce
R1-Onevision, a multimodal reasoning model designed to bridge the gap between
visual perception and deep reasoning. To achieve this, we propose a cross-modal
reasoning pipeline that transforms images into formal textural representations,
enabling precise language-based reasoning. Leveraging this pipeline, we
construct the R1-Onevision dataset which provides detailed, step-by-step
multimodal reasoning annotations across diverse domains. We further develop the
R1-Onevision model through supervised fine-tuning and reinforcement learning to
cultivate advanced reasoning and robust generalization abilities. To
comprehensively evaluate multimodal reasoning performance across different
grades, we introduce R1-Onevision-Bench, a benchmark aligned with human
educational stages, covering exams from junior high school to university and
beyond. Experimental results show that R1-Onevision achieves state-of-the-art
performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple
challenging multimodal reasoning benchmarks.