Bourbaki: MDPs Autogenerados y Condicionados por Objetivos para la Demostración de Teoremas

Resumen

El razonamiento sigue siendo una tarea desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), especialmente en el entorno lógicamente restringido de la demostración automática de teoremas (ATP, por sus siglas en inglés), debido a las recompensas escasas y la gran escala de las demostraciones. Estos desafíos se amplifican en puntos de referencia como PutnamBench, que contiene problemas de nivel universitario que requieren un razonamiento complejo y de múltiples pasos. Para abordar esto, introducimos los MDPs condicionados por objetivos autogenerados (sG-MDPs, por sus siglas en inglés), un nuevo marco en el que los agentes generan y persiguen sus subobjetivos basándose en el estado evolutivo de la demostración. Dada esta generación más estructurada de objetivos, el problema resultante se vuelve más susceptible a la búsqueda. Luego aplicamos algoritmos similares a la Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) para resolver el sG-MDP, implementando nuestro enfoque en Bourbaki (7B), un sistema modular que puede ensamblar múltiples LLMs de 7B para la generación de subobjetivos y la síntesis de tácticas. En PutnamBench, Bourbaki (7B) resuelve 26 problemas, logrando nuevos resultados de vanguardia con modelos de esta escala.

English

Reasoning remains a challenging task for large language models (LLMs), especially within the logically constrained environment of automated theorem proving (ATP), due to sparse rewards and the vast scale of proofs. These challenges are amplified in benchmarks like PutnamBench, which contains university-level problems requiring complex, multi-step reasoning. To address this, we introduce self-generated goal-conditioned MDPs (sG-MDPs), a new framework in which agents generate and pursue their subgoals based on the evolving proof state. Given this more structured generation of goals, the resulting problem becomes more amenable to search. We then apply Monte Carlo Tree Search (MCTS)-like algorithms to solve the sG-MDP, instantiating our approach in Bourbaki (7B), a modular system that can ensemble multiple 7B LLMs for subgoal generation and tactic synthesis. On PutnamBench, Bourbaki (7B) solves 26 problems, achieving new state-of-the-art results with models at this scale.