Sci-CoE: Coevolução de LLMs de Raciocínio Científico via Consenso Geométrico com Supervisão Esparsa

Resumo

Os grandes modelos de linguagem (LLMs) demonstraram capacidades excepcionais de raciocínio, e os paradigmas de coevolução têm mostrado resultados promissores em domínios como código e matemática. No entanto, em tarefas de raciocínio científico, esses modelos permanecem frágeis devido à avaliação não confiável de soluções e à diversidade limitada nas estratégias de verificação. Neste trabalho, propomos o Sci-CoE, uma estrutura científica de coevolução em dois estágios que permite aos modelos evoluírem como solucionadores e verificadores por meio de uma transição da supervisão esparsa para a aprendizagem não supervisionada. No primeiro estágio, o modelo utiliza um pequeno conjunto de dados anotados para estabelecer âncoras fundamentais de julgamento de correção para o Verificador. No segundo estágio, introduzimos um mecanismo de recompensa geométrica que considera conjuntamente consenso, confiabilidade e diversidade, impulsionando a autoiteração em larga escala sobre dados não rotulados. Experimentos em várias referências científicas gerais demonstram que o Sci-CoE aprimora as capacidades de raciocínio complexo e exibe forte escalabilidade, facilitando a construção de sistemas de avaliação mais robustos e diversos. Os códigos estão disponíveis em https://github.com/InternScience/Sci-CoE.

English

Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.

Sci-CoE: Coevolução de LLMs de Raciocínio Científico via Consenso Geométrico com Supervisão Esparsa

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Resumo

Support