Sci-CoE: Koevolutionäre wissenschaftliche Denkfähigkeiten von LLMs durch geometrischen Konsens mit spärlicher Supervision
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
February 12, 2026
papers.authors: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten im logischen Denken bewiesen, und ko-evolutive Paradigmen haben in Bereichen wie Code und Mathematik vielversprechende Ergebnisse gezeigt. Bei wissenschaftlichen Denkaufgaben bleiben diese Modelle jedoch aufgrund unzuverlässiger Lösungsbewertung und begrenzter Vielfalt an Verifikationsstrategien anfällig. In dieser Arbeit schlagen wir Sci-CoE vor, einen zweistufigen wissenschaftlichen Ko-Evolutionsrahmen, der es Modellen ermöglicht, sich sowohl als Löser als auch als Verifizierer durch den Übergang von spärlicher Überwachung zu unüberwachtem Lernen selbst weiterzuentwickeln. In der ersten Stufe nutzt das Modell einen kleinen Satz annotierter Daten, um grundlegende Richtigkeit-Beurteilungsanker für den Verifizierer zu etablieren. In der zweiten Stufe führen wir einen geometrischen Belohnungsmechanismus ein, der Konsens, Zuverlässigkeit und Diversität gemeinsam berücksichtigt und so großskalige Selbstiteration auf nicht annotierten Daten antreibt. Experimente auf mehreren allgemeinen wissenschaftlichen Benchmarks zeigen, dass Sci-CoE die Fähigkeiten zum komplexen logischen Denken verbessert und starke Skalierbarkeit aufweist, was den Aufbau robusterer und diverserer Bewertungssysteme erleichtert. Der Code ist verfügbar unter https://github.com/InternScience/Sci-CoE.
English
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.