Совмещение больших языковых моделей с деревом поиска с наградой процесса для улучшения сложного рассуждения.

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

December 20, 2024
Авторы: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi
cs.AI

Аннотация

Несмотря на недавние достижения в области крупных языковых моделей, модели с открытым исходным кодом часто испытывают трудности с постоянным успешным выполнением сложных задач рассуждения. Существующие методы ансамблей, будь то применяемые на уровне токенов или выходных данных, не справляются с этими вызовами. В ответ на это мы представляем модель ансамбля языковых моделей с Монте-Карло деревом поиска (LE-MCTS), новую концепцию для ансамблевого объединения языковых моделей на уровне процесса. LE-MCTS формулирует пошаговое рассуждение с ансамблем языковых моделей как процесс принятия решений Маркова. В этой концепции состояния представляют собой промежуточные пути рассуждения, а действия состоят в генерации следующего шага рассуждения с использованием одной из языковых моделей, выбранных из заранее определенного пула. Руководствуясь моделью вознаграждения на основе процесса, LE-MCTS выполняет поиск по дереву по шагам рассуждения, сгенерированным различными языковыми моделями, выявляя наиболее точную цепочку рассуждения. Экспериментальные результаты на пяти бенчмарках математического рассуждения показывают, что наш подход превосходит как алгоритмы декодирования одиночных языковых моделей, так и методы ансамблей языковых моделей. Заметно, что LE-MCTS повышает производительность на 3,6% и 4,3% на наборах данных MATH и MQA соответственно, подчеркивая его эффективность в решении сложных задач рассуждения.
English
Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.

Summary

AI-Generated Summary

PDF183December 25, 2024