LLaMA-Berry: Optimización por pares para el razonamiento matemático de nivel olímpico similar a O1

Resumen

Este documento presenta un marco avanzado de resolución de problemas matemáticos, LLaMA-Berry, para mejorar la capacidad de razonamiento matemático de Modelos de Lenguaje Grandes (LLMs). El marco combina la Búsqueda de Árbol de Monte Carlo (MCTS) con Auto-Refinamiento Iterativo para optimizar el camino de razonamiento y utiliza un modelo de recompensa por pares para evaluar diferentes caminos de manera global. Al aprovechar las capacidades de auto-crítica y reescritura de los LLMs, el Auto-Refinamiento aplicado a MCTS (SR-MCTS) supera las ineficiencias y limitaciones de los algoritmos de búsqueda convencionales paso a paso y ávidos al fomentar una exploración más eficiente de los espacios de solución. El Modelo de Recompensa de Preferencia por Pares (PPRM), inspirado en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), se utiliza luego para modelar las preferencias por pares entre soluciones, utilizando un método de Recuento de Borda Mejorado (EBC) para sintetizar estas preferencias en una puntuación de clasificación global para encontrar respuestas mejores. Este enfoque aborda los desafíos de variabilidad en la puntuación y distribuciones no independientes en tareas de razonamiento matemático. El marco ha sido probado en bancos de pruebas generales y avanzados, mostrando un rendimiento superior en términos de eficiencia de búsqueda y capacidad de resolución de problemas en comparación con métodos existentes como ToT y rStar, especialmente en bancos de pruebas de nivel olímpico complejos, incluidos GPQA, AIME24 y AMC23.

English

This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.

LLaMA-Berry: Optimización por pares para el razonamiento matemático de nivel olímpico similar a O1

LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

Resumen

Support