ChatPaper.aiChatPaper

Résolution de preuves d'inégalités avec des modèles de langage à grande échelle

Solving Inequality Proofs with Large Language Models

June 9, 2025
Auteurs: Jiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu
cs.AI

Résumé

La démonstration d'inégalités, cruciale dans divers domaines scientifiques et mathématiques, met à l'épreuve des compétences de raisonnement avancées telles que la découverte de bornes serrées et l'application stratégique de théorèmes. Cela en fait une frontière distincte et exigeante pour les grands modèles de langage (LLMs), offrant des perspectives au-delà de la résolution générale de problèmes mathématiques. Les progrès dans ce domaine sont entravés par les ensembles de données existants, souvent rares, synthétiques ou trop formels. Nous abordons ce problème en proposant une formulation de tâche informelle mais vérifiable, transformant la démonstration d'inégalités en deux sous-tâches vérifiables automatiquement : l'estimation de bornes et la prédiction de relations. Sur cette base, nous publions IneqMath, un ensemble de données expertes d'inégalités de niveau Olympiade, comprenant un ensemble de test et un corpus d'entraînement enrichis de solutions étape par étape et d'annotations de théorèmes. Nous développons également un nouveau cadre d'évaluation LLM-comme-juge, combinant un juge de réponse finale avec quatre juges étape par étape conçus pour détecter les erreurs de raisonnement courantes. Une évaluation systématique de 29 LLM leaders sur IneqMath révèle une réalité surprenante : même les meilleurs modèles comme o1 atteignent moins de 10 % de précision globale sous un examen étape par étape ; cela représente une baisse allant jusqu'à 65,5 % par rapport à leur précision en ne considérant que l'équivalence des réponses finales. Cette divergence expose des chaînes déductives fragiles et un écart critique pour les LLM actuels entre simplement trouver une réponse et construire une preuve rigoureuse. L'augmentation de la taille des modèles et du calcul au moment du test apporte des gains limités en termes de correction globale des preuves. Nos résultats mettent plutôt en lumière des directions de recherche prometteuses telles que le raisonnement guidé par les théorèmes et l'auto-affinement. Le code et les données sont disponibles à l'adresse https://ineqmath.github.io/.
English
Inequality proving, crucial across diverse scientific and mathematical fields, tests advanced reasoning skills such as discovering tight bounds and strategic theorem application. This makes it a distinct, demanding frontier for large language models (LLMs), offering insights beyond general mathematical problem-solving. Progress in this area is hampered by existing datasets that are often scarce, synthetic, or rigidly formal. We address this by proposing an informal yet verifiable task formulation, recasting inequality proving into two automatically checkable subtasks: bound estimation and relation prediction. Building on this, we release IneqMath, an expert-curated dataset of Olympiad-level inequalities, including a test set and training corpus enriched with step-wise solutions and theorem annotations. We also develop a novel LLM-as-judge evaluation framework, combining a final-answer judge with four step-wise judges designed to detect common reasoning flaws. A systematic evaluation of 29 leading LLMs on IneqMath reveals a surprising reality: even top models like o1 achieve less than 10% overall accuracy under step-wise scrutiny; this is a drop of up to 65.5% from their accuracy considering only final answer equivalence. This discrepancy exposes fragile deductive chains and a critical gap for current LLMs between merely finding an answer and constructing a rigorous proof. Scaling model size and increasing test-time computation yield limited gains in overall proof correctness. Instead, our findings highlight promising research directions such as theorem-guided reasoning and self-refinement. Code and data are available at https://ineqmath.github.io/.
PDF172June 11, 2025