ChatPaper.aiChatPaper

EconProver: Auf dem Weg zu einer wirtschaftlicheren Skalierung zur Testzeit für automatisiertes Theorembeweisen

EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

September 16, 2025
papers.authors: Mukai Li, Linfeng Song, Zhenwen Liang, Jiahao Xu, Shansan Gong, Qi Liu, Haitao Mi, Dong Yu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben kürzlich das Feld des automatisierten Theorembeweisens (ATP) vorangetrieben und durch weit verbreitete Skalierungsstrategien zur Testzeit erhebliche Leistungssteigerungen erzielt, insbesondere durch reflektierende Chain-of-Thought (CoT)-Argumentation und erhöhte Sampling-Durchläufe. Beide Ansätze führen jedoch zu einem erheblichen Rechenaufwand für die Inferenz. Darüber hinaus regulieren bestehende Kostenanalysen typischerweise nur die Anzahl der Sampling-Durchläufe, während die erheblichen Unterschiede in den Sampling-Kosten, die durch verschiedene Skalierungsstrategien entstehen, vernachlässigt werden. In diesem Artikel vergleichen wir systematisch die Effizienz verschiedener Skalierungsstrategien zur Testzeit für ATP-Modelle und zeigen die Ineffizienz der derzeitigen State-of-the-Art (SOTA) Open-Source-Ansätze auf. Anschließend untersuchen wir Ansätze, um die Token-Nutzung und die Anzahl der Sampling-Durchläufe erheblich zu reduzieren, während die ursprüngliche Leistung beibehalten wird. Konkret schlagen wir zwei komplementäre Methoden vor, die in eine einheitliche EconRL-Pipeline integriert werden können, um verstärkte Vorteile zu erzielen: (1) einen dynamischen Chain-of-Thought (CoT)-Wechselmechanismus, der entwickelt wurde, um unnötigen Token-Verbrauch zu reduzieren, und (2) diverse parallel skalierte Verstärkungslernen (RL) mit trainierbaren Präfixen, um die Erfolgsrate bei begrenzten Sampling-Durchläufen zu erhöhen. Experimente auf miniF2F und ProofNet zeigen, dass unser EconProver eine vergleichbare Leistung zu Baseline-Methoden mit nur 12 % der Rechenkosten erreicht. Diese Arbeit bietet umsetzbare Erkenntnisse für den Einsatz von leichtgewichtigen ATP-Modellen ohne Leistungseinbußen.
English
Large Language Models (LLMs) have recently advanced the field of Automated Theorem Proving (ATP), attaining substantial performance gains through widely adopted test-time scaling strategies, notably reflective Chain-of-Thought (CoT) reasoning and increased sampling passes. However, they both introduce significant computational overhead for inference. Moreover, existing cost analyses typically regulate only the number of sampling passes, while neglecting the substantial disparities in sampling costs introduced by different scaling strategies. In this paper, we systematically compare the efficiency of different test-time scaling strategies for ATP models and demonstrate the inefficiency of the current state-of-the-art (SOTA) open-source approaches. We then investigate approaches to significantly reduce token usage and sample passes while maintaining the original performance. Specifically, we propose two complementary methods that can be integrated into a unified EconRL pipeline for amplified benefits: (1) a dynamic Chain-of-Thought (CoT) switching mechanism designed to mitigate unnecessary token consumption, and (2) Diverse parallel-scaled reinforcement learning (RL) with trainable prefixes to enhance pass rates under constrained sampling passes. Experiments on miniF2F and ProofNet demonstrate that our EconProver achieves comparable performance to baseline methods with only 12% of the computational cost. This work provides actionable insights for deploying lightweight ATP models without sacrificing performance.
PDF62September 17, 2025