Sci-CoE: Co-evoluerende wetenschappelijke redeneer-LLM's via geometrische consensus met beperkte supervisie

Samenvatting

Grote taalmodellen (LLM's) hebben uitzonderlijke redeneervaardigheden getoond, en co-evoluerende paradigma's hebben veelbelovende resultaten opgeleverd in domeinen zoals code en wiskunde. Bij wetenschappelijke redeneertaken blijven deze modellen echter kwetsbaar door onbetrouwbare oplossingsevaluatie en beperkte diversiteit in verificatiestrategieën. In dit werk stellen we Sci-CoE voor, een tweefasen wetenschappelijk co-evoluerend raamwerk dat modellen in staat stelt zichzelf te ontwikkelen als zowel oplosser als verificateur via een overgang van sparse supervisie naar unsupervised leren. In de eerste fase gebruikt het model een kleine set geannoteerde data om fundamentele correctheidsbeoordelingsankers voor de Verificateur vast te stellen. In de tweede fase introduceren we een geometrisch beloningsmechanisme dat gezamenlijk consensus, betrouwbaarheid en diversiteit in overweging neemt, waardoor grootschalige zelfiteratie op ongelabelde data wordt aangedreven. Experimenten op verschillende algemene wetenschappelijke benchmarks tonen aan dat Sci-CoE complexe redeneervaardigheden versterkt en sterke schaalbaarheid vertoont, wat de constructie van robuustere en diversere evaluatiesystemen vergemakkelijkt. Code is beschikbaar op https://github.com/InternScience/Sci-CoE.

English

Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.

Sci-CoE: Co-evoluerende wetenschappelijke redeneer-LLM's via geometrische consensus met beperkte supervisie

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Samenvatting

Support