ChatPaper.aiChatPaper

DARC: Plan de Estudios de Razonamiento Asimétrico Desacoplado para la Evolución de los LLM

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

January 20, 2026
Autores: Shengda Fan, Xuyan Ye, Yankai Lin
cs.AI

Resumen

El autoaprendizaje con modelos de lenguaje grandes ha surgido como un paradigma prometedor para lograr una inteligencia artificial con capacidad de auto-mejora. Sin embargo, los marcos de autoaprendizaje existentes a menudo sufren de inestabilidad en la optimización, debido a (i) objetivos no estacionarios inducidos por la retroalimentación de recompensas dependientes del resolvedor para el cuestionador, y (ii) errores de *bootstrapping* provenientes de pseudoetiquetas autogeneradas utilizadas para supervisar al resolvedor. Para mitigar estos desafíos, presentamos DARC (*Decoupled Asymmetric Reasoning Curriculum*), un marco de trabajo en dos etapas que estabiliza el proceso de auto-evolución. Primero, entrenamos al cuestionador para sintetizar preguntas calibradas en dificultad, condicionadas por niveles de dificultad explícitos y corpus externos. Segundo, entrenamos al resolvedor con un mecanismo de auto-destilación asimétrico, donde un profesor aumentado con documentos genera pseudoetiquetas de alta calidad para supervisar al estudiante (resolvedor) que carece de acceso a documentos. Los resultados empíricos demuestran que DARC es independiente del modelo, produciendo una mejora promedio de 10.9 puntos en nueve benchmarks de razonamiento y tres modelos base. Además, DARC supera consistentemente a todas las líneas base y se aproxima al rendimiento de modelos totalmente supervisados sin depender de anotaciones humanas.El código está disponible en https://github.com/RUCBM/DARC.
English
Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.
PDF51January 22, 2026