ChatPaper.aiChatPaper

Potenciando el Razonamiento Multimodal con Pensamiento Estructurado Automatizado mediante MCTS

Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking

February 4, 2025
Autores: Jinyang Wu, Mingkuan Feng, Shuai Zhang, Ruihan Jin, Feihu Che, Zengqi Wen, Jianhua Tao
cs.AI

Resumen

Los modelos de lenguaje grandes multimodales (MLLMs) exhiben capacidades impresionantes pero aún enfrentan desafíos en el razonamiento visual complejo. Mientras que los esfuerzos recientes intentan mejorar el razonamiento de MLLMs incorporando un pensamiento estructurado similar al de OpenAI o1 a través de estructuras de búsqueda explícitas o destilación guiada por maestros, a menudo luchan por equilibrar el rendimiento y la eficiencia. Una limitación crítica es su fuerte dependencia en datos extensos y espacios de búsqueda, lo que resulta en una extracción de información implícita y utilización de datos de baja eficiencia. Para abordar esto, proponemos AStar, un paradigma de pensamiento estructurado automatizado para el razonamiento multimodal a través de la Búsqueda de Árbol de Monte Carlo (MCTS). AStar deriva automáticamente patrones de razonamiento cognitivo de alto nivel a partir de datos limitados utilizando estructuras jerárquicas potenciadas por MCTS. Basándonos en estos patrones explícitos, diseñamos un marco de razonamiento unificado que integra de manera fluida las capacidades de razonamiento interno de los modelos y las pautas de razonamiento externas, permitiendo una inferencia eficiente con un mínimo de iteraciones en el árbol. Este nuevo paradigma logra un equilibrio convincente entre rendimiento y eficiencia. Experimentos extensos demuestran la efectividad de AStar, logrando una precisión superior (54.0%) en el banco de pruebas MathVerse con una base de 7B, superando a GPT-4o (50.2%) manteniendo una eficiencia sustancial en datos y computación.
English
Multimodal large language models (MLLMs) exhibit impressive capabilities but still face challenges in complex visual reasoning. While recent efforts attempt to enhance MLLMs' reasoning by incorporating OpenAI o1-like structured thinking through explicit search structures or teacher-guided distillation, they often struggle to balance performance and efficiency. A critical limitation is their heavy reliance on extensive data and search spaces, resulting in low-efficiency implicit insight extraction and data utilization. To address this, we propose AStar, an Automated Structured thinking paradigm for multimodal reasoning via Monte Carlo Tree Search (MCTS). AStar automatically derives high-level cognitive reasoning patterns from limited data using MCTS-powered hierarchical structures. Building on these explicit patterns, we design a unified reasoning framework that seamlessly integrates models' internal reasoning capabilities and external reasoning guidelines, enabling efficient inference with minimal tree iterations. This novel paradigm strikes a compelling balance between performance and efficiency. Extensive experiments demonstrate AStar's effectiveness, achieving superior accuracy (54.0%) on the MathVerse benchmark with a 7B backbone, surpassing GPT-4o (50.2%) while maintaining substantial data and computational efficiency.

Summary

AI-Generated Summary

PDF224February 6, 2025