Sci-CoE: Coevolución de Modelos de Lenguaje de Razonamiento Científico mediante Consenso Geométrico con Supervisión Escasa
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
February 12, 2026
Autores: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) han demostrado capacidades de razonamiento excepcionales, y los paradigmas de co-evolución han mostrado resultados prometedores en dominios como código y matemáticas. Sin embargo, en tareas de razonamiento científico, estos modelos siguen siendo frágiles debido a una evaluación de soluciones poco fiable y a una diversidad limitada en las estrategias de verificación. En este trabajo, proponemos Sci-CoE, un marco de co-evolución científica en dos etapas que permite a los modelos auto-evolucionar como solucionador y verificadores mediante una transición desde una supervisión escasa a un aprendizaje no supervisado. En la primera etapa, el modelo utiliza un pequeño conjunto de datos anotados para establecer anclajes de juicio de corrección básicos para el Verificador. En la segunda etapa, introducimos un mecanismo de recompensa geométrica que considera conjuntamente el consenso, la fiabilidad y la diversidad, impulsando la auto-iteración a gran escala sobre datos no etiquetados. Los experimentos en varios benchmarks científicos generales demuestran que Sci-CoE mejora las capacidades de razonamiento complejo y exhibe una gran escalabilidad, facilitando la construcción de sistemas de evaluación más robustos y diversos. El código está disponible en https://github.com/InternScience/Sci-CoE.
English
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.