Combinando Modelos de Lenguaje Grandes con Búsqueda de Árbol Guiada por Recompensa de Proceso para una Mejor Razonamiento Complejo

Resumen

A pesar de los avances recientes en modelos de lenguaje de gran tamaño, los modelos de código abierto a menudo tienen dificultades para desempeñarse de manera consistente en tareas de razonamiento complejas. Los métodos de conjunto existentes, ya sea aplicados a nivel de token o de salida, no logran abordar estos desafíos. En respuesta, presentamos el Modelo de Lenguaje Ensemble con Búsqueda de Árbol Monte Carlo (LE-MCTS), un marco novedoso para el ensamblaje a nivel de proceso de modelos de lenguaje. LE-MCTS formula el razonamiento paso a paso con un conjunto de modelos de lenguaje como un proceso de decisión de Markov. En este marco, los estados representan caminos de razonamiento intermedios, mientras que las acciones consisten en generar el siguiente paso de razonamiento utilizando uno de los modelos de lenguaje seleccionados de un grupo predefinido. Guiado por un modelo de recompensa basado en el proceso, LE-MCTS realiza una búsqueda de árbol sobre los pasos de razonamiento generados por diferentes modelos de lenguaje, identificando la cadena de razonamiento más precisa. Los resultados experimentales en cinco bancos de pruebas de razonamiento matemático demuestran que nuestro enfoque supera tanto a los algoritmos de decodificación de un solo modelo de lenguaje como a los métodos de ensamblaje de modelos de lenguaje. Notablemente, LE-MCTS mejora el rendimiento en un 3.6% y 4.3% en los conjuntos de datos MATH y MQA, respectivamente, resaltando su efectividad en la resolución de problemas de razonamiento complejos.

English

Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.

Combinando Modelos de Lenguaje Grandes con Búsqueda de Árbol Guiada por Recompensa de Proceso para una Mejor Razonamiento Complejo

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

Resumen

Support