Sci-CoE:幾何的合意による科学的推論LLMの共進化とスパース監視
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
February 12, 2026
著者: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
cs.AI
要旨
大規模言語モデル(LLM)は卓越した推論能力を示しており、共進化パラダイムはコードや数学などの領域で有望な成果を上げている。しかし、科学推論タスクにおいては、信頼性の低い解の評価と検証戦略の多様性不足により、これらのモデルは依然として脆弱である。本研究では、スパースな教師あり学習から教師なし学習への移行を通じて、モデルがソルバーと検証器の両方として自己進化することを可能にする二段階の科学的共進化フレームワーク「Sci-CoE」を提案する。第一段階では、モデルは少量の注釈付きデータを用いて、検証器のための基本的な正解判定の基準を確立する。第二段階では、合意性、信頼性、多様性を統合的に考慮する幾何学的報酬メカニズムを導入し、ラベルなしデータに対する大規模な自己反復を駆動する。複数の一般的な科学ベンチマークによる実験により、Sci-CoEが複雑な推論能力を強化し、強力なスケーラビリティを示すことで、より堅牢で多様な評価システムの構築を促進することが実証された。コードはhttps://github.com/InternScience/Sci-CoE で公開されている。
English
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.