Het samenvoegen van grote taalmodellen met op procesbeloning geleide boomzoekacties voor betere complexe redenering
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
December 20, 2024
Auteurs: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi
cs.AI
Samenvatting
Ondanks recente vooruitgang in grote taalmodellen, hebben open-source modellen vaak moeite om consistent goed te presteren op complexe redeneertaken. Bestaande ensemble methoden, of ze nu worden toegepast op token- of outputniveaus, slagen er niet in deze uitdagingen aan te pakken. Als reactie presenteren we Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), een nieuw raamwerk voor het op procesniveau samenvoegen van taalmodellen. LE-MCTS formuleert stapsgewijs redeneren met een ensemble van taalmodellen als een Markov-beslissingsproces. In dit raamwerk stellen staten tussenliggende redeneerpaden voor, terwijl acties bestaan uit het genereren van de volgende redeneerstap met behulp van een van de taalmodellen geselecteerd uit een vooraf gedefinieerde pool. Geleid door een op proces gebaseerd beloningsmodel voert LE-MCTS een boomzoekopdracht uit over de redeneerstappen gegenereerd door verschillende taalmodellen, waarbij de meest nauwkeurige redeneerketen wordt geïdentificeerd. Experimentele resultaten op vijf wiskundige redeneerbenchmarks tonen aan dat onze aanpak zowel enkelvoudige taalmodeldecoderingsalgoritmen als taalmodelensemblemethoden overtreft. Opmerkelijk verbetert LE-MCTS de prestaties met respectievelijk 3,6% en 4,3% op de MATH- en MQA-datasets, waarbij de effectiviteit ervan bij het oplossen van complexe redeneerproblemen wordt benadrukt.
English
Despite recent advances in large language models, open-source models often
struggle to consistently perform well on complex reasoning tasks. Existing
ensemble methods, whether applied at the token or output levels, fail to
address these challenges. In response, we present Language model Ensemble with
Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level
ensembling of language models. LE-MCTS formulates step-by-step reasoning with
an ensemble of language models as a Markov decision process. In this framework,
states represent intermediate reasoning paths, while actions consist of
generating the next reasoning step using one of the language models selected
from a predefined pool. Guided by a process-based reward model, LE-MCTS
performs a tree search over the reasoning steps generated by different language
models, identifying the most accurate reasoning chain. Experimental results on
five mathematical reasoning benchmarks demonstrate that our approach
outperforms both single language model decoding algorithms and language model
ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the
MATH and MQA datasets, respectively, highlighting its effectiveness in solving
complex reasoning problems.