DARC: Currículo de Raciocínio Assimétrico Desacoplado para Evolução de LLM

Resumo

O auto-jogo com modelos de linguagem de grande escala emergiu como um paradigma promissor para alcançar inteligência artificial com capacidade de autoaprimoramento. No entanto, as estruturas de auto-jogo existentes frequentemente sofrem com instabilidade de otimização, devido (i) a objetivos não estacionários induzidos por *feedback* de recompensa dependente do resolvedor (*Solver*) para o questionador (*Questioner*), e (ii) a erros de *bootstrapping* provenientes de pseudo-rótulos autogerados usados para supervisionar o Resolvedor. Para mitigar esses desafios, introduzimos o DARC (*Decoupled Asymmetric Reasoning Curriculum*), uma estrutura em dois estágios que estabiliza o processo de auto-evolução. Primeiro, treinamos o Questionador para sintetizar questões com dificuldade calibrada, condicionadas a níveis explícitos de dificuldade e a corpora externos. Em segundo lugar, treinamos o Resolvedor com um mecanismo assimétrico de auto-distilação, no qual um professor (*teacher*) aumentado com documentos gera pseudo-rótulos de alta qualidade para supervisionar o Resolvedor estudante (*student*) que não tem acesso a documentos. Resultados empíricos demonstram que o DARC é agnóstico a modelos, produzindo uma melhoria média de 10,9 pontos em nove *benchmarks* de raciocínio e três modelos de base. Além disso, o DARC supera consistentemente todas as linhas de base e aproxima-se do desempenho de modelos totalmente supervisionados sem depender de anotações humanas. O código está disponível em https://github.com/RUCBM/DARC.

English

Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.

DARC: Currículo de Raciocínio Assimétrico Desacoplado para Evolução de LLM

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

Resumo

Support