Virgo: Предварительное исследование воспроизведения MLLM, аналогичного o1
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
January 3, 2025
Авторы: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Аннотация
Недавно системы медленного мышления, построенные на основе больших языковых моделей (LLM), привлекли широкое внимание за счет масштабирования времени мышления во время вывода. Также наблюдается растущий интерес к адаптации этой возможности к мультимодальным большим языковым моделям (MLLM). Учитывая, что MLLM обрабатывают более сложную семантику данных по различным модальностям, интуитивно более сложно реализовать мультимодальные системы медленного мышления.
Для решения этой проблемы в данной статье мы исследуем простой подход путем донастройки способной MLLM с небольшим объемом текстовых данных долгих размышлений, что приводит к мультимодальной системе медленного мышления, Virgo (визуальное мышление с долгими размышлениями). Мы обнаружили, что эти процессы долгих размышлений, выраженные естественным языком, могут быть эффективно переданы MLLM. Более того, кажется, что такие текстовые данные рассуждений могут быть даже более эффективными, чем визуальные данные рассуждений, в вызывании способностей медленного мышления MLLM. Хотя эта работа является предварительной, она демонстрирует, что способности медленного мышления фундаментально связаны с компонентом языковой модели, который может быть передан через модальности или области. Это открытие может быть использовано для направления разработки более мощных систем медленного мышления. Мы предоставляем наши ресурсы по адресу https://github.com/RUCAIBox/Virgo.
English
Recently, slow-thinking reasoning systems, built upon large language models
(LLMs), have garnered widespread attention by scaling the thinking time during
inference. There is also growing interest in adapting this capability to
multimodal large language models (MLLMs). Given that MLLMs handle more complex
data semantics across different modalities, it is intuitively more challenging
to implement multimodal slow-thinking systems.
To address this issue, in this paper, we explore a straightforward approach
by fine-tuning a capable MLLM with a small amount of textual long-form thought
data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning
with long thought). We find that these long-form reasoning processes, expressed
in natural language, can be effectively transferred to MLLMs. Moreover, it
seems that such textual reasoning data can be even more effective than visual
reasoning data in eliciting the slow-thinking capacities of MLLMs. While this
work is preliminary, it demonstrates that slow-thinking capacities are
fundamentally associated with the language model component, which can be
transferred across modalities or domains. This finding can be leveraged to
guide the development of more powerful slow-thinking reasoning systems. We
release our resources at https://github.com/RUCAIBox/Virgo.Summary
AI-Generated Summary