ChatPaper.aiChatPaper

Más allá de la demostración de teoremas: formulación, marco de trabajo y referencia para la resolución formal de problemas

Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7, 2025
Autores: Qi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan
cs.AI

Resumen

Como una tarea aparentemente autoexplicativa, la resolución de problemas ha sido un componente significativo en la ciencia y la ingeniería. Sin embargo, falta una formulación general pero concreta de la resolución de problemas en sí. Con el reciente desarrollo de agentes de resolución de problemas basados en IA, la demanda de verificabilidad a nivel de proceso está aumentando rápidamente, aunque aún está poco explorada. Para llenar estos vacíos, presentamos una formulación fundamentada de la resolución de problemas como un proceso de decisión de Markov determinista; un marco novedoso, FPS (Resolución Formal de Problemas), que utiliza entornos existentes de FTP (demostración formal de teoremas) para realizar una resolución de problemas verificada a nivel de proceso; y D-FPS (FPS Deductivo), que desacopla la resolución y la verificación de respuestas para una mejor alineación con los humanos. Se demuestra la expresividad, solidez y completitud de los marcos. Construimos tres puntos de referencia en la resolución de problemas: FormalMath500, una formalización de un subconjunto del punto de referencia MATH500; MiniF2F-Solving y PutnamBench-Solving, adaptaciones de los puntos de referencia FTP MiniF2F y PutnamBench. Para una evaluación fiel, interpretable y alineada con los humanos, proponemos RPE (Equivalencia Proposicional Restringida), un enfoque simbólico para determinar la corrección de las respuestas mediante verificación formal. Evaluamos cuatro modelos FTP prevalentes y dos métodos de prompting como líneas base, resolviendo como máximo el 23.77% de FormalMath500, el 27.47% de MiniF2F-Solving y el 0.31% de PutnamBench-Solving.
English
As a seemingly self-explanatory task, problem-solving has been a significant component of science and engineering. However, a general yet concrete formulation of problem-solving itself is missing. With the recent development of AI-based problem-solving agents, the demand for process-level verifiability is rapidly increasing yet underexplored. To fill these gaps, we present a principled formulation of problem-solving as a deterministic Markov decision process; a novel framework, FPS (Formal Problem-Solving), which utilizes existing FTP (formal theorem proving) environments to perform process-verified problem-solving; and D-FPS (Deductive FPS), decoupling solving and answer verification for better human-alignment. The expressiveness, soundness and completeness of the frameworks are proven. We construct three benchmarks on problem-solving: FormalMath500, a formalization of a subset of the MATH500 benchmark; MiniF2F-Solving and PutnamBench-Solving, adaptations of FTP benchmarks MiniF2F and PutnamBench. For faithful, interpretable, and human-aligned evaluation, we propose RPE (Restricted Propositional Equivalence), a symbolic approach to determine the correctness of answers by formal verification. We evaluate four prevalent FTP models and two prompting methods as baselines, solving at most 23.77% of FormalMath500, 27.47% of MiniF2F-Solving, and 0.31% of PutnamBench-Solving.

Summary

AI-Generated Summary

PDF101May 8, 2025