Mûrier : Renforcer le MLLM avec un raisonnement et une réflexion de type o1 via la recherche collective d'arbres Monte Carlo.
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
December 24, 2024
Auteurs: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI
Résumé
Dans ce travail, notre objectif est de développer un MLLM capable de comprendre et de résoudre des questions en apprenant à créer chaque étape intermédiaire du raisonnement jusqu'à la réponse finale. À cette fin, nous proposons la Recherche d'Arbre de Monte Carlo Collective (CoMCTS), une nouvelle méthode d'apprentissage du raisonnement pour les MLLMs, qui introduit le concept d'apprentissage collectif dans la "recherche d'arbre" pour une recherche et un apprentissage efficaces et efficients des chemins de raisonnement. L'idée centrale de CoMCTS est d'exploiter les connaissances collectives de plusieurs modèles pour conjecturer, rechercher et identifier de manière collaborative des chemins de raisonnement efficaces menant aux bonnes réponses via quatre opérations itératives comprenant l'Expansion, la Simulation et le Positionnement de l'Erreur, la Rétropropagation et la Sélection. En utilisant CoMCTS, nous construisons Mulberry-260k, un ensemble de données multimodal avec un arbre de nœuds de raisonnement riches, explicites et bien définis pour chaque question. Avec Mulberry-260k, nous effectuons une SFT collective pour entraîner notre modèle, Mulberry, une série de MLLMs avec des capacités de Raisonnement et de Réflexion étape par étape similaires à o1. Des expériences approfondies démontrent la supériorité de nos méthodes proposées sur divers benchmarks. Le code sera disponible sur https://github.com/HJYao00/Mulberry.
English
In this work, we aim to develop an MLLM that understands and solves questions
by learning to create each intermediate step of the reasoning involved till the
final answer. To this end, we propose Collective Monte Carlo Tree Search
(CoMCTS), a new learning-to-reason method for MLLMs, which introduces the
concept of collective learning into ``tree search'' for effective and efficient
reasoning-path searching and learning. The core idea of CoMCTS is to leverage
collective knowledge from multiple models to collaboratively conjecture, search
and identify effective reasoning paths toward correct answers via four
iterative operations including Expansion, Simulation and Error Positioning,
Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a
multimodal dataset with a tree of rich, explicit and well-defined reasoning
nodes for each question. With Mulberry-260k, we perform collective SFT to train
our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and
Reflection capabilities. Extensive experiments demonstrate the superiority of
our proposed methods on various benchmarks. Code will be available at
https://github.com/HJYao00/MulberrySummary
AI-Generated Summary