Sci-CoE: Co-evoluzione di LLM per il Ragionamento Scientifico tramite Consenso Geometrico con Supervisione Sparsa

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato capacità eccezionali di ragionamento, e i paradigmi di co-evoluzione hanno mostrato risultati promettenti in domini come il codice e la matematica. Tuttavia, nei compiti di ragionamento scientifico, questi modelli rimangono fragili a causa di una valutazione inaffidabile delle soluzioni e di una diversità limitata nelle strategie di verifica. In questo lavoro, proponiamo Sci-CoE, un framework scientifico di co-evoluzione a due stadi che consente ai modelli di auto-evolversi sia come risolutori che come verificatori attraverso una transizione dalla supervisione sparsa all'apprendimento non supervisionato. Nella prima fase, il modello utilizza un piccolo insieme di dati annotati per stabilire ancoraggi fondamentali di giudizio di correttezza per il Verificatore. Nella seconda fase, introduciamo un meccanismo di ricompensa geometrica che considera congiuntamente consenso, affidabilità e diversità, guidando l'auto-iterazione su larga scala su dati non etichettati. Esperimenti su diversi benchmark scientifici generali dimostrano che Sci-CoE potenzia le capacità di ragionamento complesso ed esibisce una forte scalabilità, facilitando la costruzione di sistemi di valutazione più robusti e diversificati. I codici sono disponibili all'indirizzo https://github.com/InternScience/Sci-CoE.

English

Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.

Sci-CoE: Co-evoluzione di LLM per il Ragionamento Scientifico tramite Consenso Geometrico con Supervisione Sparsa

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Abstract

Support