Het samenvoegen van grote taalmodellen met op procesbeloning geleide boomzoekacties voor betere complexe redenering

Samenvatting

Ondanks recente vooruitgang in grote taalmodellen, hebben open-source modellen vaak moeite om consistent goed te presteren op complexe redeneertaken. Bestaande ensemble methoden, of ze nu worden toegepast op token- of outputniveaus, slagen er niet in deze uitdagingen aan te pakken. Als reactie presenteren we Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), een nieuw raamwerk voor het op procesniveau samenvoegen van taalmodellen. LE-MCTS formuleert stapsgewijs redeneren met een ensemble van taalmodellen als een Markov-beslissingsproces. In dit raamwerk stellen staten tussenliggende redeneerpaden voor, terwijl acties bestaan uit het genereren van de volgende redeneerstap met behulp van een van de taalmodellen geselecteerd uit een vooraf gedefinieerde pool. Geleid door een op proces gebaseerd beloningsmodel voert LE-MCTS een boomzoekopdracht uit over de redeneerstappen gegenereerd door verschillende taalmodellen, waarbij de meest nauwkeurige redeneerketen wordt geïdentificeerd. Experimentele resultaten op vijf wiskundige redeneerbenchmarks tonen aan dat onze aanpak zowel enkelvoudige taalmodeldecoderingsalgoritmen als taalmodelensemblemethoden overtreft. Opmerkelijk verbetert LE-MCTS de prestaties met respectievelijk 3,6% en 4,3% op de MATH- en MQA-datasets, waarbij de effectiviteit ervan bij het oplossen van complexe redeneerproblemen wordt benadrukt.

English

Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.

Het samenvoegen van grote taalmodellen met op procesbeloning geleide boomzoekacties voor betere complexe redenering

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

Samenvatting

Support