LeanDojo: Demostración de Teoremas con Modelos de Lenguaje Aumentados por Recuperación

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado potencial para demostrar teoremas formales utilizando asistentes de pruebas como Lean. Sin embargo, los métodos existentes son difíciles de reproducir o ampliar debido a código privado, datos y grandes requisitos de cómputo. Esto ha creado barreras significativas para la investigación sobre métodos de aprendizaje automático en la demostración de teoremas. Este artículo elimina estas barreras al presentar LeanDojo: un entorno de desarrollo abierto para Lean que incluye herramientas, datos, modelos y puntos de referencia. LeanDojo extrae datos de Lean y permite la interacción programática con el entorno de pruebas. Contiene anotaciones detalladas de las premisas en las demostraciones, proporcionando datos valiosos para la selección de premisas: un cuello de botella clave en la demostración de teoremas. Utilizando estos datos, desarrollamos ReProver (Demostrador Aumentado con Recuperación): el primer demostrador basado en LLM que se complementa con recuperación para seleccionar premisas de una vasta biblioteca matemática. Es económico y requiere solo una semana de entrenamiento en una GPU. Nuestro recuperador aprovecha la capacidad de análisis de programas de LeanDojo para identificar premisas accesibles y ejemplos negativos difíciles, lo que hace que la recuperación sea mucho más efectiva. Además, construimos un nuevo punto de referencia que consta de 96,962 teoremas y demostraciones extraídos de la biblioteca matemática de Lean. Presenta una división de datos desafiante que requiere que el demostrador generalice teoremas que dependen de premisas novedosas que nunca se usan en el entrenamiento. Utilizamos este punto de referencia para entrenamiento y evaluación, y los resultados experimentales demuestran la efectividad de ReProver frente a líneas base sin recuperación y GPT-4. Así, proporcionamos el primer conjunto de demostradores de teoremas basados en LLM de código abierto sin ningún conjunto de datos propietario y lo publicamos bajo una licencia permisiva MIT para facilitar futuras investigaciones.

English

Large language models (LLMs) have shown promise in proving formal theorems using proof assistants such as Lean. However, existing methods are difficult to reproduce or build on, due to private code, data, and large compute requirements. This has created substantial barriers to research on machine learning methods for theorem proving. This paper removes these barriers by introducing LeanDojo: an open-source Lean playground consisting of toolkits, data, models, and benchmarks. LeanDojo extracts data from Lean and enables interaction with the proof environment programmatically. It contains fine-grained annotations of premises in proofs, providing valuable data for premise selection: a key bottleneck in theorem proving. Using this data, we develop ReProver (Retrieval-Augmented Prover): the first LLM-based prover that is augmented with retrieval for selecting premises from a vast math library. It is inexpensive and needs only one GPU week of training. Our retriever leverages LeanDojo's program analysis capability to identify accessible premises and hard negative examples, which makes retrieval much more effective. Furthermore, we construct a new benchmark consisting of 96,962 theorems and proofs extracted from Lean's math library. It features challenging data split requiring the prover to generalize to theorems relying on novel premises that are never used in training. We use this benchmark for training and evaluation, and experimental results demonstrate the effectiveness of ReProver over non-retrieval baselines and GPT-4. We thus provide the first set of open-source LLM-based theorem provers without any proprietary datasets and release it under a permissive MIT license to facilitate further research.

LeanDojo: Demostración de Teoremas con Modelos de Lenguaje Aumentados por Recuperación

LeanDojo: Theorem Proving with Retrieval-Augmented Language Models

Resumen

Support