ChatPaper.aiChatPaper

Шелковица: Дарящая MLLM возможности рассуждения и отражения, подобные o1, через коллективный поиск по дереву методом Монте-Карло.

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

December 24, 2024
Авторы: Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
cs.AI

Аннотация

В данной работе мы стремимся разработать MLLM, который понимает и решает вопросы, изучая создание каждого промежуточного шага рассуждения до окончательного ответа. Для этого мы предлагаем Collective Monte Carlo Tree Search (CoMCTS) - новый метод обучения рассуждению для MLLM, который вводит концепцию коллективного обучения в "поиск по дереву" для эффективного и эффективного поиска пути рассуждения и обучения. Основная идея CoMCTS заключается в использовании коллективных знаний из нескольких моделей для совместного предположения, поиска и определения эффективных путей рассуждения к правильным ответам через четыре итеративные операции, включая Расширение, Симуляцию и Определение Ошибок, Обратное распространение и Выбор. С использованием CoMCTS мы создаем Mulberry-260k, мультимодальный набор данных с деревом богатых, явных и четко определенных узлов рассуждения для каждого вопроса. С помощью Mulberry-260k мы выполняем коллективное SFT для обучения нашей модели, Mulberry, серии MLLM с возможностями пошагового рассуждения и отражения, подобных o1. Обширные эксперименты демонстрируют превосходство наших предложенных методов на различных бенчмарках. Код будет доступен по адресу https://github.com/HJYao00/Mulberry
English
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into ``tree search'' for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry

Summary

AI-Generated Summary

PDF402December 26, 2024