Die Grenzen des natürlichen Denkens erweitern: Interleavter Bonus durch Verifikation mittels formaler Logik
Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification
January 30, 2026
papers.authors: Chuxue Cao, Jinluan Yang, Haoran Li, Kunhao Pan, Zijian Zhao, Zhengyu Chen, Yuchen Tian, Lijun Wu, Conghui He, Sirui Han, Yike Guo
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten, doch ihre stochastische Next-Token-Prädiktion erzeugt logische Inkonsistenzen und Reward Hacking, die formale symbolische Systeme vermeiden. Um diese Lücke zu schließen, führen wir einen formalen logikverifikationsgesteuerten Rahmen ein, der formale symbolische Verifikation dynamisch mit dem natürlichen Sprachgenerierungsprozess verzahnt und Echtzeit-Feedback zur Erkennung und Korrektur von Fehlern bereitstellt. Im Unterschied zu früheren neuro-symbolischen Methoden, die durch passive nachträgliche Validierung eingeschränkt waren, bestraft unser Ansatz aktiv Zwischenfehlschlüsse während der Reasoning-Kette. Wir operationalisieren diesen Rahmen über eine neuartige zweistufige Trainingspipeline, die formal logikverifikationsgesteuertes supervidiertes Fine-Tuning und Policy-Optimierung synergistisch verbindet. Eine umfassende Evaluation auf sechs Benchmarks aus den Bereichen mathematisches, logisches und allgemeines Reasoning zeigt, dass unsere 7B- und 14B-Modelle state-of-the-art Baseline-Modelle durchschnittlich um 10,4 % bzw. 14,2 % übertreffen. Diese Ergebnisse bestätigen, dass formale Verifikation als skalierbarer Mechanismus dienen kann, um die Leistungsgrenzen fortschrittlichen LLM-Reasonings signifikant zu erweitern.
English
Large Language Models (LLMs) show remarkable capabilities, yet their stochastic next-token prediction creates logical inconsistencies and reward hacking that formal symbolic systems avoid. To bridge this gap, we introduce a formal logic verification-guided framework that dynamically interleaves formal symbolic verification with the natural language generation process, providing real-time feedback to detect and rectify errors as they occur. Distinguished from previous neuro-symbolic methods limited by passive post-hoc validation, our approach actively penalizes intermediate fallacies during the reasoning chain. We operationalize this framework via a novel two-stage training pipeline that synergizes formal logic verification-guided supervised fine-tuning and policy optimization. Extensive evaluation on six benchmarks spanning mathematical, logical, and general reasoning demonstrates that our 7B and 14B models outperform state-of-the-art baselines by average margins of 10.4% and 14.2%, respectively. These results validate that formal verification can serve as a scalable mechanism to significantly push the performance boundaries of advanced LLM reasoning.