LLaMA-Berry: Optimización por pares para el razonamiento matemático de nivel olímpico similar a O1
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
October 3, 2024
Autores: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI
Resumen
Este documento presenta un marco avanzado de resolución de problemas matemáticos, LLaMA-Berry, para mejorar la capacidad de razonamiento matemático de Modelos de Lenguaje Grandes (LLMs). El marco combina la Búsqueda de Árbol de Monte Carlo (MCTS) con Auto-Refinamiento Iterativo para optimizar el camino de razonamiento y utiliza un modelo de recompensa por pares para evaluar diferentes caminos de manera global. Al aprovechar las capacidades de auto-crítica y reescritura de los LLMs, el Auto-Refinamiento aplicado a MCTS (SR-MCTS) supera las ineficiencias y limitaciones de los algoritmos de búsqueda convencionales paso a paso y ávidos al fomentar una exploración más eficiente de los espacios de solución. El Modelo de Recompensa de Preferencia por Pares (PPRM), inspirado en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), se utiliza luego para modelar las preferencias por pares entre soluciones, utilizando un método de Recuento de Borda Mejorado (EBC) para sintetizar estas preferencias en una puntuación de clasificación global para encontrar respuestas mejores. Este enfoque aborda los desafíos de variabilidad en la puntuación y distribuciones no independientes en tareas de razonamiento matemático. El marco ha sido probado en bancos de pruebas generales y avanzados, mostrando un rendimiento superior en términos de eficiencia de búsqueda y capacidad de resolución de problemas en comparación con métodos existentes como ToT y rStar, especialmente en bancos de pruebas de nivel olímpico complejos, incluidos GPQA, AIME24 y AMC23.
English
This paper presents an advanced mathematical problem-solving framework,
LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language
Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with
iterative Self-Refine to optimize the reasoning path and utilizes a pairwise
reward model to evaluate different paths globally. By leveraging the
self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS
(SR-MCTS) overcomes the inefficiencies and limitations of conventional
step-wise and greedy search algorithms by fostering a more efficient
exploration of solution spaces. Pairwise Preference Reward Model~(PPRM),
inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to
model pairwise preferences between solutions, utilizing an Enhanced Borda Count
(EBC) method to synthesize these preferences into a global ranking score to
find better answers. This approach addresses the challenges of scoring
variability and non-independent distributions in mathematical reasoning tasks.
The framework has been tested on general and advanced benchmarks, showing
superior performance in terms of search efficiency and problem-solving
capability compared to existing methods like ToT and rStar, particularly in
complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.Summary
AI-Generated Summary