Virgo: Una exploración preliminar sobre la reproducción de MLLM similar a o1.
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
January 3, 2025
Autores: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Resumen
Recientemente, los sistemas de razonamiento de pensamiento lento, construidos sobre modelos de lenguaje grandes (LLMs), han captado una amplia atención al escalar el tiempo de pensamiento durante la inferencia. También hay un creciente interés en adaptar esta capacidad a modelos de lenguaje grandes multimodales (MLLMs). Dado que los MLLMs manejan semántica de datos más compleja a través de diferentes modalidades, intuitivamente resulta más desafiante implementar sistemas de pensamiento lento multimodales.
Para abordar este problema, en este documento exploramos un enfoque directo al ajustar finamente un MLLM capaz con una pequeña cantidad de datos de pensamiento textual a largo plazo, dando como resultado un sistema de pensamiento lento multimodal, Virgo (Razonamiento visual con pensamiento prolongado). Descubrimos que estos procesos de razonamiento a largo plazo, expresados en lenguaje natural, pueden transferirse de manera efectiva a MLLMs. Además, parece que tales datos de razonamiento textual pueden ser aún más efectivos que los datos de razonamiento visual para provocar las capacidades de pensamiento lento de los MLLMs. Si bien este trabajo es preliminar, demuestra que las capacidades de pensamiento lento están fundamentalmente asociadas con el componente del modelo de lenguaje, que puede transferirse entre modalidades o dominios. Este hallazgo puede aprovecharse para guiar el desarrollo de sistemas de razonamiento de pensamiento lento más potentes. Ponemos a disposición nuestros recursos en https://github.com/RUCAIBox/Virgo.
English
Recently, slow-thinking reasoning systems, built upon large language models
(LLMs), have garnered widespread attention by scaling the thinking time during
inference. There is also growing interest in adapting this capability to
multimodal large language models (MLLMs). Given that MLLMs handle more complex
data semantics across different modalities, it is intuitively more challenging
to implement multimodal slow-thinking systems.
To address this issue, in this paper, we explore a straightforward approach
by fine-tuning a capable MLLM with a small amount of textual long-form thought
data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning
with long thought). We find that these long-form reasoning processes, expressed
in natural language, can be effectively transferred to MLLMs. Moreover, it
seems that such textual reasoning data can be even more effective than visual
reasoning data in eliciting the slow-thinking capacities of MLLMs. While this
work is preliminary, it demonstrates that slow-thinking capacities are
fundamentally associated with the language model component, which can be
transferred across modalities or domains. This finding can be leveraged to
guide the development of more powerful slow-thinking reasoning systems. We
release our resources at https://github.com/RUCAIBox/Virgo.Summary
AI-Generated Summary