Sci-CoE : Co-évolution des LLMs pour le raisonnement scientifique via un consensus géométrique avec supervision parcimonieuse
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
February 12, 2026
papers.authors: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement exceptionnelles, et les paradigmes de co-évolution ont montré des résultats prometteurs dans des domaines tels que le code et les mathématiques. Cependant, dans les tâches de raisonnement scientifique, ces modèles restent fragiles en raison d'une évaluation peu fiable des solutions et d'une diversité limitée des stratégies de vérification. Dans ce travail, nous proposons Sci-CoE, un cadre de co-évolution scientifique en deux étapes qui permet aux modèles de s'auto-évoluer à la fois en tant que solveur et vérificateur grâce à une transition allant d'une supervision éparse à un apprentissage non supervisé. Dans la première étape, le modèle utilise un petit ensemble de données annotées pour établir des ancrages fondamentaux de jugement de justesse pour le Vérificateur. Dans la deuxième étape, nous introduisons un mécanisme de récompense géométrique qui prend en compte conjointement le consensus, la fiabilité et la diversité, pilotant une auto-itération à grande échelle sur des données non étiquetées. Les expériences menées sur plusieurs référentiels scientifiques généraux démontrent que Sci-CoE améliore les capacités de raisonnement complexe et présente une forte évolutivité, facilitant la construction de systèmes d'évaluation plus robustes et diversifiés. Les codes sont disponibles à l'adresse https://github.com/InternScience/Sci-CoE.
English
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.