Combinando Modelos de Lenguaje Grandes con Búsqueda de Árbol Guiada por Recompensa de Proceso para una Mejor Razonamiento Complejo
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
December 20, 2024
Autores: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi
cs.AI
Resumen
A pesar de los avances recientes en modelos de lenguaje de gran tamaño, los modelos de código abierto a menudo tienen dificultades para desempeñarse de manera consistente en tareas de razonamiento complejas. Los métodos de conjunto existentes, ya sea aplicados a nivel de token o de salida, no logran abordar estos desafíos. En respuesta, presentamos el Modelo de Lenguaje Ensemble con Búsqueda de Árbol Monte Carlo (LE-MCTS), un marco novedoso para el ensamblaje a nivel de proceso de modelos de lenguaje. LE-MCTS formula el razonamiento paso a paso con un conjunto de modelos de lenguaje como un proceso de decisión de Markov. En este marco, los estados representan caminos de razonamiento intermedios, mientras que las acciones consisten en generar el siguiente paso de razonamiento utilizando uno de los modelos de lenguaje seleccionados de un grupo predefinido. Guiado por un modelo de recompensa basado en el proceso, LE-MCTS realiza una búsqueda de árbol sobre los pasos de razonamiento generados por diferentes modelos de lenguaje, identificando la cadena de razonamiento más precisa. Los resultados experimentales en cinco bancos de pruebas de razonamiento matemático demuestran que nuestro enfoque supera tanto a los algoritmos de decodificación de un solo modelo de lenguaje como a los métodos de ensamblaje de modelos de lenguaje. Notablemente, LE-MCTS mejora el rendimiento en un 3.6% y 4.3% en los conjuntos de datos MATH y MQA, respectivamente, resaltando su efectividad en la resolución de problemas de razonamiento complejos.
English
Despite recent advances in large language models, open-source models often
struggle to consistently perform well on complex reasoning tasks. Existing
ensemble methods, whether applied at the token or output levels, fail to
address these challenges. In response, we present Language model Ensemble with
Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level
ensembling of language models. LE-MCTS formulates step-by-step reasoning with
an ensemble of language models as a Markov decision process. In this framework,
states represent intermediate reasoning paths, while actions consist of
generating the next reasoning step using one of the language models selected
from a predefined pool. Guided by a process-based reward model, LE-MCTS
performs a tree search over the reasoning steps generated by different language
models, identifying the most accurate reasoning chain. Experimental results on
five mathematical reasoning benchmarks demonstrate that our approach
outperforms both single language model decoding algorithms and language model
ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the
MATH and MQA datasets, respectively, highlighting its effectiveness in solving
complex reasoning problems.Summary
AI-Generated Summary