ChatPaper.aiChatPaper

Virgo: Een Voorlopige Verkenning van het Reproduceren van o1-achtige MLLM

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

January 3, 2025
Auteurs: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI

Samenvatting

Recentelijk hebben langzaam-denken redeneringssystemen, gebouwd op grote taalmodellen (LLM's), brede aandacht gekregen door de denktijd tijdens inferentie te vergroten. Er is ook groeiende interesse in het aanpassen van deze capaciteit naar multimodale grote taalmodellen (MLLM's). Aangezien MLLM's complexere gegevenssemantiek over verschillende modaliteiten verwerken, is het intuïtief uitdagender om multimodale langzaam-denken systemen te implementeren. Om dit probleem aan te pakken, onderzoeken we in dit artikel een eenvoudige benadering door een capabel MLLM fijn af te stemmen met een kleine hoeveelheid tekstuele langetermijndenkggevens, resulterend in een multimodaal langzaam-denken systeem, Virgo (Visueel redeneren met lang denken). We ontdekken dat deze langetermijndenkprocessen, uitgedrukt in natuurlijke taal, effectief kunnen worden overgebracht naar MLLM's. Bovendien lijkt het erop dat dergelijke tekstuele redeneergegevens zelfs effectiever kunnen zijn dan visuele redeneergegevens om de langzaam-denken capaciteiten van MLLM's op te roepen. Hoewel dit werk voorlopig is, toont het aan dat langzaam-denken capaciteiten fundamenteel verbonden zijn met het taalmodelcomponent, dat over modaliteiten of domeinen kan worden overgedragen. Deze bevinding kan worden benut om de ontwikkeling van krachtigere langzaam-denken redeneringssystemen te sturen. We stellen onze bronnen beschikbaar op https://github.com/RUCAIBox/Virgo.
English
Recently, slow-thinking reasoning systems, built upon large language models (LLMs), have garnered widespread attention by scaling the thinking time during inference. There is also growing interest in adapting this capability to multimodal large language models (MLLMs). Given that MLLMs handle more complex data semantics across different modalities, it is intuitively more challenging to implement multimodal slow-thinking systems. To address this issue, in this paper, we explore a straightforward approach by fine-tuning a capable MLLM with a small amount of textual long-form thought data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning with long thought). We find that these long-form reasoning processes, expressed in natural language, can be effectively transferred to MLLMs. Moreover, it seems that such textual reasoning data can be even more effective than visual reasoning data in eliciting the slow-thinking capacities of MLLMs. While this work is preliminary, it demonstrates that slow-thinking capacities are fundamentally associated with the language model component, which can be transferred across modalities or domains. This finding can be leveraged to guide the development of more powerful slow-thinking reasoning systems. We release our resources at https://github.com/RUCAIBox/Virgo.

Summary

AI-Generated Summary

PDF343January 6, 2025