Sci-CoE: Косоволюция языковых моделей для научных рассуждений посредством геометрического консенсуса при разреженном контроле
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
February 12, 2026
Авторы: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали исключительные способности к логическим рассуждениям, а совместно-эволюционные парадигмы показали многообещающие результаты в таких областях, как программирование и математика. Однако при решении научных задач эти модели остаются уязвимыми из-за ненадежной оценки решений и ограниченного разнообразия стратегий верификации. В данной работе мы предлагаем Sci-CoE — двухэтапную научную совместно-эволюционную структуру, которая позволяет моделям саморазвиваться в роли как решателя, так и верификатора через переход от разреженного обучения с учителем к обучению без учителя. На первом этапе модель использует небольшой набор размеченных данных для установления базовых ориентиров корректности суждений Верификатора. На втором этапе мы вводим геометрический механизм вознаграждения, совместно учитывающий консенсус, надежность и разнообразие, что стимулирует крупномасштабную самоитерацию на немаркированных данных. Эксперименты на нескольких общих научных тестовых наборах демонстрируют, что Sci-CoE улучшает способности к сложным логическим рассуждениям и проявляет сильную масштабируемость, способствуя построению более надежных и разнообразных систем оценки. Код доступен по адресу https://github.com/InternScience/Sci-CoE.
English
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.