Mulberry: Stärkung von MLLM durch o1-ähnliches Schlussfolgern und Reflexion mittels kollektiver Monte Carlo-Baumsuche
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
December 24, 2024
Autoren: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI
Zusammenfassung
In dieser Arbeit zielen wir darauf ab, ein MLLM zu entwickeln, das Fragen versteht und löst, indem es lernt, jeden Zwischenschritt des damit verbundenen Denkprozesses bis zur endgültigen Antwort zu erstellen. Zu diesem Zweck schlagen wir Collective Monte Carlo Tree Search (CoMCTS) vor, eine neue Lern-zu-Denken-Methode für MLLMs, die das Konzept des kollektiven Lernens in die "Baumsuche" einführt, um eine effektive und effiziente Suche nach Denkpfaden und Lernen zu ermöglichen. Die Kernidee von CoMCTS besteht darin, kollektives Wissen aus mehreren Modellen zu nutzen, um gemeinsam Vermutungen anzustellen, zu suchen und effektive Denkpfade zu identifizieren, die zu korrekten Antworten führen, über vier iterative Operationen, einschließlich Expansion, Simulation und Fehlerpositionierung, Rückpropagierung und Auswahl. Unter Verwendung von CoMCTS erstellen wir Mulberry-260k, einen multimodalen Datensatz mit einem Baum aus reichen, expliziten und klar definierten Denk-Knoten für jede Frage. Mit Mulberry-260k führen wir kollektive SFT durch, um unser Modell, Mulberry, eine Serie von MLLMs mit O1-ähnlichen schrittweisen Denk- und Reflexionsfähigkeiten, zu trainieren. Umfangreiche Experimente zeigen die Überlegenheit unserer vorgeschlagenen Methoden in verschiedenen Benchmarks. Der Code wird unter https://github.com/HJYao00/Mulberry verfügbar sein.
English
In this work, we aim to develop an MLLM that understands and solves questions
by learning to create each intermediate step of the reasoning involved till the
final answer. To this end, we propose Collective Monte Carlo Tree Search
(CoMCTS), a new learning-to-reason method for MLLMs, which introduces the
concept of collective learning into ``tree search'' for effective and efficient
reasoning-path searching and learning. The core idea of CoMCTS is to leverage
collective knowledge from multiple models to collaboratively conjecture, search
and identify effective reasoning paths toward correct answers via four
iterative operations including Expansion, Simulation and Error Positioning,
Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a
multimodal dataset with a tree of rich, explicit and well-defined reasoning
nodes for each question. With Mulberry-260k, we perform collective SFT to train
our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and
Reflection capabilities. Extensive experiments demonstrate the superiority of
our proposed methods on various benchmarks. Code will be available at
https://github.com/HJYao00/MulberrySummary
AI-Generated Summary