EconProver: Verso un Ridimensionamento più Economico al Momento del Test per il Teorema Automatico

Abstract

I Large Language Model (LLM) hanno recentemente fatto progredire il campo del Teorema Automatico (ATP), ottenendo miglioramenti significativi delle prestazioni attraverso strategie di scalatura ampiamente adottate durante il test, in particolare il ragionamento riflessivo a Catena di Pensiero (Chain-of-Thought, CoT) e l'aumento dei passaggi di campionamento. Tuttavia, entrambe introducono un sovraccarico computazionale significativo per l'inferenza. Inoltre, le analisi dei costi esistenti tipicamente regolano solo il numero di passaggi di campionamento, trascurando le sostanziali disparità nei costi di campionamento introdotte da diverse strategie di scalatura. In questo articolo, confrontiamo sistematicamente l'efficienza di diverse strategie di scalatura durante il test per i modelli ATP e dimostriamo l'inefficienza degli approcci open-source allo stato dell'arte (SOTA). Successivamente, indaghiamo approcci per ridurre significativamente l'uso di token e i passaggi di campionamento mantenendo le prestazioni originali. Nello specifico, proponiamo due metodi complementari che possono essere integrati in una pipeline unificata EconRL per benefici amplificati: (1) un meccanismo di commutazione dinamica della Catena di Pensiero (CoT) progettato per mitigare il consumo inutile di token, e (2) un apprendimento per rinforzo (RL) parallelo-scalato diversificato con prefissi addestrabili per migliorare i tassi di successo sotto vincoli di passaggi di campionamento. Gli esperimenti su miniF2F e ProofNet dimostrano che il nostro EconProver raggiunge prestazioni comparabili ai metodi di base con solo il 12% del costo computazionale. Questo lavoro fornisce intuizioni pratiche per il dispiegamento di modelli ATP leggeri senza sacrificare le prestazioni.

English

Large Language Models (LLMs) have recently advanced the field of Automated Theorem Proving (ATP), attaining substantial performance gains through widely adopted test-time scaling strategies, notably reflective Chain-of-Thought (CoT) reasoning and increased sampling passes. However, they both introduce significant computational overhead for inference. Moreover, existing cost analyses typically regulate only the number of sampling passes, while neglecting the substantial disparities in sampling costs introduced by different scaling strategies. In this paper, we systematically compare the efficiency of different test-time scaling strategies for ATP models and demonstrate the inefficiency of the current state-of-the-art (SOTA) open-source approaches. We then investigate approaches to significantly reduce token usage and sample passes while maintaining the original performance. Specifically, we propose two complementary methods that can be integrated into a unified EconRL pipeline for amplified benefits: (1) a dynamic Chain-of-Thought (CoT) switching mechanism designed to mitigate unnecessary token consumption, and (2) Diverse parallel-scaled reinforcement learning (RL) with trainable prefixes to enhance pass rates under constrained sampling passes. Experiments on miniF2F and ProofNet demonstrate that our EconProver achieves comparable performance to baseline methods with only 12% of the computational cost. This work provides actionable insights for deploying lightweight ATP models without sacrificing performance.

EconProver: Verso un Ridimensionamento più Economico al Momento del Test per il Teorema Automatico

EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

Abstract

Support