Regroupement de grands modèles de langage avec recherche en arbre guidée par récompense de processus pour une meilleure raisonnement complexe
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
December 20, 2024
Auteurs: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi
cs.AI
Résumé
Malgré les récentes avancées dans les grands modèles de langage, les modèles open-source ont souvent du mal à performer de manière cohérente sur des tâches de raisonnement complexe. Les méthodes d'ensemble existantes, qu'elles soient appliquées au niveau du jeton ou de la sortie, échouent à relever ces défis. En réponse, nous présentons Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), un nouveau cadre pour l'ensemencement au niveau du processus des modèles de langage. LE-MCTS formule le raisonnement étape par étape avec un ensemble de modèles de langage comme un processus de décision markovien. Dans ce cadre, les états représentent des chemins de raisonnement intermédiaires, tandis que les actions consistent à générer l'étape de raisonnement suivante en utilisant l'un des modèles de langage sélectionnés dans un pool prédéfini. Guidé par un modèle de récompense basé sur le processus, LE-MCTS effectue une recherche arborescente sur les étapes de raisonnement générées par différents modèles de langage, identifiant la chaîne de raisonnement la plus précise. Les résultats expérimentaux sur cinq bancs d'essai de raisonnement mathématique démontrent que notre approche surpasse à la fois les algorithmes de décodage de modèles de langage individuels et les méthodes d'ensemble de modèles de langage. Notamment, LE-MCTS améliore les performances de 3,6% et 4,3% respectivement sur les ensembles de données MATH et MQA, mettant en évidence son efficacité dans la résolution de problèmes de raisonnement complexes.
English
Despite recent advances in large language models, open-source models often
struggle to consistently perform well on complex reasoning tasks. Existing
ensemble methods, whether applied at the token or output levels, fail to
address these challenges. In response, we present Language model Ensemble with
Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level
ensembling of language models. LE-MCTS formulates step-by-step reasoning with
an ensemble of language models as a Markov decision process. In this framework,
states represent intermediate reasoning paths, while actions consist of
generating the next reasoning step using one of the language models selected
from a predefined pool. Guided by a process-based reward model, LE-MCTS
performs a tree search over the reasoning steps generated by different language
models, identifying the most accurate reasoning chain. Experimental results on
five mathematical reasoning benchmarks demonstrate that our approach
outperforms both single language model decoding algorithms and language model
ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the
MATH and MQA datasets, respectively, highlighting its effectiveness in solving
complex reasoning problems.Summary
AI-Generated Summary