Virgo : Une exploration préliminaire de la reproduction d'un MLLM similaire à o1
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
January 3, 2025
Auteurs: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Résumé
Récemment, les systèmes de raisonnement à pensée lente, basés sur de grands modèles de langage (LLM), ont suscité une attention généralisée en augmentant le temps de réflexion lors de l'inférence. Il existe également un intérêt croissant pour adapter cette capacité aux modèles de langage multimodaux de grande taille (MLLM). Étant donné que les MLLMs traitent des sémantiques de données plus complexes à travers différentes modalités, il est intuitivement plus difficile de mettre en œuvre des systèmes de pensée lente multimodaux.
Pour résoudre ce problème, dans cet article, nous explorons une approche simple en affinant un MLLM performant avec une petite quantité de données textuelles de réflexion à long terme, aboutissant à un système de pensée lente multimodal, Virgo (Raisonnement visuel avec une longue réflexion). Nous constatons que ces processus de raisonnement à long terme, exprimés en langage naturel, peuvent être efficacement transférés aux MLLMs. De plus, il semble que de telles données de raisonnement textuel puissent être encore plus efficaces que les données de raisonnement visuel pour susciter les capacités de pensée lente des MLLMs. Bien que ce travail soit préliminaire, il démontre que les capacités de pensée lente sont fondamentalement associées au composant du modèle de langage, qui peut être transféré entre modalités ou domaines. Cette découverte peut être exploitée pour orienter le développement de systèmes de raisonnement à pensée lente plus puissants. Nous mettons nos ressources à disposition sur https://github.com/RUCAIBox/Virgo.
English
Recently, slow-thinking reasoning systems, built upon large language models
(LLMs), have garnered widespread attention by scaling the thinking time during
inference. There is also growing interest in adapting this capability to
multimodal large language models (MLLMs). Given that MLLMs handle more complex
data semantics across different modalities, it is intuitively more challenging
to implement multimodal slow-thinking systems.
To address this issue, in this paper, we explore a straightforward approach
by fine-tuning a capable MLLM with a small amount of textual long-form thought
data, resulting in a multimodal slow-thinking system, Virgo (Visual reasoning
with long thought). We find that these long-form reasoning processes, expressed
in natural language, can be effectively transferred to MLLMs. Moreover, it
seems that such textual reasoning data can be even more effective than visual
reasoning data in eliciting the slow-thinking capacities of MLLMs. While this
work is preliminary, it demonstrates that slow-thinking capacities are
fundamentally associated with the language model component, which can be
transferred across modalities or domains. This finding can be leveraged to
guide the development of more powerful slow-thinking reasoning systems. We
release our resources at https://github.com/RUCAIBox/Virgo.Summary
AI-Generated Summary