ChatPaper.aiChatPaper

Resolución de Demostraciones de Desigualdades con Modelos de Lenguaje de Gran Escala

Solving Inequality Proofs with Large Language Models

June 9, 2025
Autores: Jiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu
cs.AI

Resumen

La demostración de desigualdades, crucial en diversos campos científicos y matemáticos, pone a prueba habilidades avanzadas de razonamiento, como el descubrimiento de cotas ajustadas y la aplicación estratégica de teoremas. Esto la convierte en una frontera distintiva y exigente para los modelos de lenguaje de gran escala (LLMs), ofreciendo perspectivas más allá de la resolución general de problemas matemáticos. El progreso en esta área se ve obstaculizado por conjuntos de datos existentes que suelen ser escasos, sintéticos o excesivamente formales. Abordamos este problema proponiendo una formulación de tarea informal pero verificable, transformando la demostración de desigualdades en dos subtareas automáticamente verificables: estimación de cotas y predicción de relaciones. Basándonos en esto, lanzamos IneqMath, un conjunto de datos curado por expertos que contiene desigualdades de nivel olímpico, incluyendo un conjunto de prueba y un corpus de entrenamiento enriquecido con soluciones paso a paso y anotaciones de teoremas. También desarrollamos un marco de evaluación novedoso basado en LLM-como-juez, combinando un juez de respuesta final con cuatro jueces paso a paso diseñados para detectar errores comunes de razonamiento. Una evaluación sistemática de 29 LLMs líderes en IneqMath revela una realidad sorprendente: incluso los mejores modelos, como o1, logran menos del 10% de precisión general bajo un escrutinio paso a paso; esto representa una caída de hasta el 65,5% en comparación con su precisión al considerar solo la equivalencia de la respuesta final. Esta discrepancia expone cadenas deductivas frágiles y una brecha crítica para los LLMs actuales entre simplemente encontrar una respuesta y construir una demostración rigurosa. Escalar el tamaño del modelo y aumentar la computación en tiempo de prueba produce ganancias limitadas en la corrección general de las demostraciones. En cambio, nuestros hallazgos destacan direcciones de investigación prometedoras, como el razonamiento guiado por teoremas y la autorrefinación. El código y los datos están disponibles en https://ineqmath.github.io/.
English
Inequality proving, crucial across diverse scientific and mathematical fields, tests advanced reasoning skills such as discovering tight bounds and strategic theorem application. This makes it a distinct, demanding frontier for large language models (LLMs), offering insights beyond general mathematical problem-solving. Progress in this area is hampered by existing datasets that are often scarce, synthetic, or rigidly formal. We address this by proposing an informal yet verifiable task formulation, recasting inequality proving into two automatically checkable subtasks: bound estimation and relation prediction. Building on this, we release IneqMath, an expert-curated dataset of Olympiad-level inequalities, including a test set and training corpus enriched with step-wise solutions and theorem annotations. We also develop a novel LLM-as-judge evaluation framework, combining a final-answer judge with four step-wise judges designed to detect common reasoning flaws. A systematic evaluation of 29 leading LLMs on IneqMath reveals a surprising reality: even top models like o1 achieve less than 10% overall accuracy under step-wise scrutiny; this is a drop of up to 65.5% from their accuracy considering only final answer equivalence. This discrepancy exposes fragile deductive chains and a critical gap for current LLMs between merely finding an answer and constructing a rigorous proof. Scaling model size and increasing test-time computation yield limited gains in overall proof correctness. Instead, our findings highlight promising research directions such as theorem-guided reasoning and self-refinement. Code and data are available at https://ineqmath.github.io/.
PDF202June 11, 2025