Morera: Potenciando MLLM con razonamiento y reflexión tipo o1 a través de la Búsqueda Colectiva del Árbol de Monte Carlo.
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
December 24, 2024
Autores: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI
Resumen
En este trabajo, nuestro objetivo es desarrollar un MLLM que comprenda y resuelva preguntas aprendiendo a crear cada paso intermedio del razonamiento involucrado hasta llegar a la respuesta final. Con este fin, proponemos Búsqueda Colectiva Monte Carlo (CoMCTS), un nuevo método de aprendizaje para razonar en MLLMs, que introduce el concepto de aprendizaje colectivo en la "búsqueda en árbol" para una búsqueda y aprendizaje de trayectorias de razonamiento efectivas y eficientes. La idea central de CoMCTS es aprovechar el conocimiento colectivo de múltiples modelos para conjeturar, buscar e identificar colaborativamente trayectorias de razonamiento efectivas hacia respuestas correctas a través de cuatro operaciones iterativas que incluyen Expansión, Simulación y Posicionamiento del Error, Retropropagación y Selección. Utilizando CoMCTS, construimos Mulberry-260k, un conjunto de datos multimodal con un árbol de nodos de razonamiento ricos, explícitos y bien definidos para cada pregunta. Con Mulberry-260k, realizamos SFT colectivo para entrenar nuestro modelo, Mulberry, una serie de MLLMs con capacidades de Razonamiento y Reflexión paso a paso similares a o1. Experimentos extensos demuestran la superioridad de nuestros métodos propuestos en varios benchmarks. El código estará disponible en https://github.com/HJYao00/Mulberry
English
In this work, we aim to develop an MLLM that understands and solves questions
by learning to create each intermediate step of the reasoning involved till the
final answer. To this end, we propose Collective Monte Carlo Tree Search
(CoMCTS), a new learning-to-reason method for MLLMs, which introduces the
concept of collective learning into ``tree search'' for effective and efficient
reasoning-path searching and learning. The core idea of CoMCTS is to leverage
collective knowledge from multiple models to collaboratively conjecture, search
and identify effective reasoning paths toward correct answers via four
iterative operations including Expansion, Simulation and Error Positioning,
Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a
multimodal dataset with a tree of rich, explicit and well-defined reasoning
nodes for each question. With Mulberry-260k, we perform collective SFT to train
our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and
Reflection capabilities. Extensive experiments demonstrate the superiority of
our proposed methods on various benchmarks. Code will be available at
https://github.com/HJYao00/MulberrySummary
AI-Generated Summary