ChatPaper.aiChatPaper

Mulberry: Het versterken van MLLM met o1-achtige redenering en reflectie via Collectieve Monte Carlo Tree Search

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

December 24, 2024
Auteurs: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI

Samenvatting

In dit werk streven we ernaar een MLLM te ontwikkelen die vragen begrijpt en oplost door te leren om elk tussenliggend redeneerstap te creëren tot het uiteindelijke antwoord. Hiertoe stellen we Collective Monte Carlo Tree Search (CoMCTS) voor, een nieuwe leermethode voor redeneren voor MLLMs, die het concept van collectief leren introduceert in "boomzoek" voor effectief en efficiënt zoeken en leren van redeneerpaden. Het kernidee van CoMCTS is om collectieve kennis van meerdere modellen te benutten om gezamenlijk te concluderen, zoeken en effectieve redeneerpaden naar juiste antwoorden te identificeren via vier iteratieve bewerkingen, waaronder Uitbreiding, Simulatie en Foutpositionering, Terugpropagatie en Selectie. Met behulp van CoMCTS construeren we Mulberry-260k, een multimodaal dataset met een boom van rijke, expliciete en goed gedefinieerde redeneerknooppunten voor elke vraag. Met Mulberry-260k voeren we collectieve SFT uit om ons model, Mulberry, een reeks MLLMs met stapsgewijze redeneer- en reflectievermogens zoals o1, te trainen. Uitgebreide experimenten tonen de superioriteit van onze voorgestelde methoden op verschillende benchmarks aan. De code zal beschikbaar zijn op https://github.com/HJYao00/Mulberry
English
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
PDF392January 2, 2026