Razonamiento Multimodal Progresivo a través de Recuperación Activa
Progressive Multimodal Reasoning via Active Retrieval
December 19, 2024
Autores: Guanting Dong, Chenghao Zhang, Mengjie Deng, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen
cs.AI
Resumen
Las tareas de razonamiento multimodal de múltiples pasos plantean desafíos significativos para los modelos de lenguaje multimodal a gran escala (MLLMs), y encontrar formas efectivas de mejorar su rendimiento en tales escenarios sigue siendo un problema no resuelto. En este artículo, proponemos AR-MCTS, un marco universal diseñado para mejorar progresivamente las capacidades de razonamiento de MLLMs a través de la Recuperación Activa (AR) y la Búsqueda del Árbol de Monte Carlo (MCTS). Nuestro enfoque comienza con el desarrollo de un módulo de recuperación unificado que extrae ideas clave de apoyo para resolver problemas de razonamiento complejos de un corpus de recuperación híbrido-modal. Para cerrar la brecha en la verificación automatizada del razonamiento multimodal, empleamos el algoritmo MCTS combinado con un mecanismo de recuperación activa, que permite la generación automática de anotaciones paso a paso. Esta estrategia recupera dinámicamente ideas clave para cada paso de razonamiento, yendo más allá del muestreo tradicional de búsqueda en haz para mejorar la diversidad y fiabilidad del espacio de razonamiento. Además, introducimos un modelo de recompensa de proceso que se alinea progresivamente para respaldar la verificación automática de tareas de razonamiento multimodal. Los resultados experimentales en tres bancos de pruebas de razonamiento multimodal complejos confirman la efectividad del marco AR-MCTS en mejorar el rendimiento de varios modelos multimodales. Un análisis adicional demuestra que AR-MCTS puede optimizar la diversidad y precisión del muestreo, produciendo un razonamiento multimodal confiable.
English
Multi-step multimodal reasoning tasks pose significant challenges for
multimodal large language models (MLLMs), and finding effective ways to enhance
their performance in such scenarios remains an unresolved issue. In this paper,
we propose AR-MCTS, a universal framework designed to progressively improve the
reasoning capabilities of MLLMs through Active Retrieval (AR) and Monte Carlo
Tree Search (MCTS). Our approach begins with the development of a unified
retrieval module that retrieves key supporting insights for solving complex
reasoning problems from a hybrid-modal retrieval corpus. To bridge the gap in
automated multimodal reasoning verification, we employ the MCTS algorithm
combined with an active retrieval mechanism, which enables the automatic
generation of step-wise annotations. This strategy dynamically retrieves key
insights for each reasoning step, moving beyond traditional beam search
sampling to improve the diversity and reliability of the reasoning space.
Additionally, we introduce a process reward model that aligns progressively to
support the automatic verification of multimodal reasoning tasks. Experimental
results across three complex multimodal reasoning benchmarks confirm the
effectiveness of the AR-MCTS framework in enhancing the performance of various
multimodal models. Further analysis demonstrates that AR-MCTS can optimize
sampling diversity and accuracy, yielding reliable multimodal reasoning.Summary
AI-Generated Summary