Potenciando el Razonamiento Multimodal con Pensamiento Estructurado Automatizado mediante MCTS
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking
February 4, 2025
Autores: Jinyang Wu, Mingkuan Feng, Shuai Zhang, Ruihan Jin, Feihu Che, Zengqi Wen, Jianhua Tao
cs.AI
Resumen
Los modelos de lenguaje grandes multimodales (MLLMs) exhiben capacidades impresionantes pero aún enfrentan desafíos en el razonamiento visual complejo. Mientras que los esfuerzos recientes intentan mejorar el razonamiento de MLLMs incorporando un pensamiento estructurado similar al de OpenAI o1 a través de estructuras de búsqueda explícitas o destilación guiada por maestros, a menudo luchan por equilibrar el rendimiento y la eficiencia. Una limitación crítica es su fuerte dependencia en datos extensos y espacios de búsqueda, lo que resulta en una extracción de información implícita y utilización de datos de baja eficiencia. Para abordar esto, proponemos AStar, un paradigma de pensamiento estructurado automatizado para el razonamiento multimodal a través de la Búsqueda de Árbol de Monte Carlo (MCTS). AStar deriva automáticamente patrones de razonamiento cognitivo de alto nivel a partir de datos limitados utilizando estructuras jerárquicas potenciadas por MCTS. Basándonos en estos patrones explícitos, diseñamos un marco de razonamiento unificado que integra de manera fluida las capacidades de razonamiento interno de los modelos y las pautas de razonamiento externas, permitiendo una inferencia eficiente con un mínimo de iteraciones en el árbol. Este nuevo paradigma logra un equilibrio convincente entre rendimiento y eficiencia. Experimentos extensos demuestran la efectividad de AStar, logrando una precisión superior (54.0%) en el banco de pruebas MathVerse con una base de 7B, superando a GPT-4o (50.2%) manteniendo una eficiencia sustancial en datos y computación.
English
Multimodal large language models (MLLMs) exhibit impressive capabilities but
still face challenges in complex visual reasoning. While recent efforts attempt
to enhance MLLMs' reasoning by incorporating OpenAI o1-like structured thinking
through explicit search structures or teacher-guided distillation, they often
struggle to balance performance and efficiency. A critical limitation is their
heavy reliance on extensive data and search spaces, resulting in low-efficiency
implicit insight extraction and data utilization. To address this, we propose
AStar, an Automated Structured thinking paradigm for multimodal reasoning via
Monte Carlo Tree Search (MCTS). AStar automatically derives high-level
cognitive reasoning patterns from limited data using MCTS-powered hierarchical
structures. Building on these explicit patterns, we design a unified reasoning
framework that seamlessly integrates models' internal reasoning capabilities
and external reasoning guidelines, enabling efficient inference with minimal
tree iterations. This novel paradigm strikes a compelling balance between
performance and efficiency. Extensive experiments demonstrate AStar's
effectiveness, achieving superior accuracy (54.0%) on the MathVerse
benchmark with a 7B backbone, surpassing GPT-4o (50.2%) while maintaining
substantial data and computational efficiency.Summary
AI-Generated Summary