Улучшение математического мышления в языковых моделях с помощью автоматизированного процесса наблюдения

Аннотация

Сложные многошаговые задачи рассуждения, такие как решение математических задач или генерация кода, остаются значительным препятствием даже для самых передовых крупных моделей языка (LLM). Проверка выводов LLM с помощью модели вознаграждения за результат (ORM) является стандартным методом на этапе вывода, направленным на улучшение производительности рассуждения LLM. Однако это все еще оказывается недостаточным для задач рассуждения с длинной или многошаговой цепочкой рассуждения, где промежуточные результаты ни должным образом не вознаграждаются, ни не наказываются. Процессный контроль решает эту проблему, назначая промежуточные вознаграждения во время процесса рассуждения. До настоящего времени методы сбора данных о процессном контроле полагались либо на человеческую аннотацию, либо на оценку методом Монте-Карло на каждом шаге, что является чрезмерно дорогостоящим для масштабирования, тем самым затрудняя широкое применение этой техники. В ответ на этот вызов мы предлагаем новый алгоритм поиска в дереве Монте-Карло (MCTS) в стиле "разделяй и властвуй", названный OmegaPRM для эффективного сбора высококачественных данных о процессном контроле. Этот алгоритм быстро определяет первую ошибку в Цепочке Мысли (CoT) с помощью двоичного поиска и балансирует положительные и отрицательные примеры, тем самым обеспечивая как эффективность, так и качество. В результате мы смогли собрать более 1,5 миллиона аннотаций процессного контроля для обучения модели вознаграждения за процесс (PRM). Используя этот полностью автоматизированный процессный контроль наряду с алгоритмом взвешенной самосогласованности, мы улучшили производительность математического рассуждения модели Gemini Pro, настроенной на инструкции, достигнув успешности на уровне 69,4\% по бенчмарку MATH, что является улучшением на 36\% по сравнению с базовой производительностью модели на уровне 51\%. Кроме того, весь процесс работает без какого-либо вмешательства человека, что делает наш метод финансово и вычислительно экономичным по сравнению с существующими методами.

English

Complex multi-step reasoning tasks, such as solving mathematical problems or generating code, remain a significant hurdle for even the most advanced large language models (LLMs). Verifying LLM outputs with an Outcome Reward Model (ORM) is a standard inference-time technique aimed at enhancing the reasoning performance of LLMs. However, this still proves insufficient for reasoning tasks with a lengthy or multi-hop reasoning chain, where the intermediate outcomes are neither properly rewarded nor penalized. Process supervision addresses this limitation by assigning intermediate rewards during the reasoning process. To date, the methods used to collect process supervision data have relied on either human annotation or per-step Monte Carlo estimation, both prohibitively expensive to scale, thus hindering the broad application of this technique. In response to this challenge, we propose a novel divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named OmegaPRM for the efficient collection of high-quality process supervision data. This algorithm swiftly identifies the first error in the Chain of Thought (CoT) with binary search and balances the positive and negative examples, thereby ensuring both efficiency and quality. As a result, we are able to collect over 1.5 million process supervision annotations to train a Process Reward Model (PRM). Utilizing this fully automated process supervision alongside the weighted self-consistency algorithm, we have enhanced the instruction tuned Gemini Pro model's math reasoning performance, achieving a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from the 51\% base model performance. Additionally, the entire process operates without any human intervention, making our method both financially and computationally cost-effective compared to existing methods.

Улучшение математического мышления в языковых моделях с помощью автоматизированного процесса наблюдения

Improve Mathematical Reasoning in Language Models by Automated Process Supervision

Аннотация

Support