Sci-CoE: 희소 감독 기하 합의를 통한 과학적 추론 대규모 언어 모델의 공동 진화
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
February 12, 2026
저자: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 탁월한 추론 능력을 보여주었으며, 공동 진화 패러다임은 코드 및 수학과 같은 영역에서 유망한 결과를 나타냈습니다. 그러나 과학적 추론 과제에서는 신뢰할 수 없는 해결책 평가와 검증 전략의 제한된 다양성으로 인해 이러한 모델들은 여전히 취약한 상태로 남아 있습니다. 본 연구에서는 희소 감독에서 비지도 학습으로의 전환을 통해 모델이 해결사와 검증자로서 스스로 진화할 수 있는 2단계 과학적 공동 진화 프레임워크인 Sci-CoE를 제안합니다. 첫 번째 단계에서 모델은 주석이 달린 소규모 데이터 세트를 사용하여 검증자를 위한 기본적인 정확성 판단 기준점을 설정합니다. 두 번째 단계에서는 합의, 신뢰도 및 다양성을 함께 고려하는 기하학적 보상 메커니즘을 도입하여 레이블이 없는 데이터에 대한 대규모 자기 반복을 주도합니다. 여러 일반 과학 벤치마크에서의 실험을 통해 Sci-CoE가 복잡한 추론 능력을 향상시키고 강력한 확장성을 나타내며, 더욱 견고하고 다양한 평가 시스템 구축을 용이하게 함을 입증했습니다. 코드는 https://github.com/InternScience/Sci-CoE에서 이용 가능합니다.
English
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.