Virgo: Предварительное исследование воспроизведения MLLM, аналогичного o1

Аннотация

Недавно системы медленного мышления, построенные на основе больших языковых моделей (LLM), привлекли широкое внимание за счет масштабирования времени мышления во время вывода. Также наблюдается растущий интерес к адаптации этой возможности к мультимодальным большим языковым моделям (MLLM). Учитывая, что MLLM обрабатывают более сложную семантику данных по различным модальностям, интуитивно более сложно реализовать мультимодальные системы медленного мышления. Для решения этой проблемы в данной статье мы исследуем простой подход путем донастройки способной MLLM с небольшим объемом текстовых данных долгих размышлений, что приводит к мультимодальной системе медленного мышления, Virgo (визуальное мышление с долгими размышлениями). Мы обнаружили, что эти процессы долгих размышлений, выраженные естественным языком, могут быть эффективно переданы MLLM. Более того, кажется, что такие текстовые данные рассуждений могут быть даже более эффективными, чем визуальные данные рассуждений, в вызывании способностей медленного мышления MLLM. Хотя эта работа является предварительной, она демонстрирует, что способности медленного мышления фундаментально связаны с компонентом языковой модели, который может быть передан через модальности или области. Это открытие может быть использовано для направления разработки более мощных систем медленного мышления. Мы предоставляем наши ресурсы по адресу https://github.com/RUCAIBox/Virgo.

English

Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.

Virgo: Предварительное исследование воспроизведения MLLM, аналогичного o1

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Аннотация

Support