ChatPaper.aiChatPaper

Virgo: Eine Voruntersuchung zur Reproduktion von o1-ähnlichen MLLM

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

January 3, 2025
Autoren: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI

Zusammenfassung

In letzter Zeit haben langsam denkende Begründungssysteme, die auf großen Sprachmodellen (LLMs) aufbauen, durch die Skalierung der Denkzeit während der Inferenz weit verbreitete Aufmerksamkeit erregt. Es besteht auch ein wachsendes Interesse daran, diese Fähigkeit auf multimodale große Sprachmodelle (MLLMs) anzupassen. Da MLLMs komplexere Datensemantiken über verschiedene Modalitäten hinweg verarbeiten, ist es intuitiv herausfordernder, multimodale langsam denkende Systeme zu implementieren. Um dieses Problem anzugehen, untersuchen wir in diesem Papier einen einfachen Ansatz, indem wir ein leistungsfähiges MLLM mit einer geringen Menge an textuellen Langform-Denkdaten feinabstimmen, was zu einem multimodalen langsam denkenden System, Virgo (Visuelle Begründung mit langem Denken), führt. Wir stellen fest, dass diese Langform-Begründungsprozesse, die in natürlicher Sprache ausgedrückt sind, effektiv auf MLLMs übertragen werden können. Darüber hinaus scheint es, dass solche textuellen Begründungsdaten sogar effektiver sein können als visuelle Begründungsdaten, um die langsam denkenden Kapazitäten von MLLMs hervorzurufen. Obwohl diese Arbeit vorläufig ist, zeigt sie, dass langsam denkende Kapazitäten grundlegend mit dem Sprachmodellkomponenten verbunden sind, die über Modalitäten oder Domänen hinweg übertragen werden können. Diese Erkenntnis kann genutzt werden, um die Entwicklung leistungsfähigerer langsam denkender Begründungssysteme zu lenken. Wir veröffentlichen unsere Ressourcen unter https://github.com/RUCAIBox/Virgo.
English
Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.

Summary

AI-Generated Summary

PDF343January 6, 2025