ChatPaper.aiChatPaper

DARC : Curriculum de Raisonnement Asymétrique Découplé pour l'Évolution des LLM

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

January 20, 2026
papers.authors: Shengda Fan, Xuyan Ye, Yankai Lin
cs.AI

papers.abstract

L'auto-jeu avec des grands modèles de langage est apparu comme un paradigme prometteur pour réaliser une intelligence artificielle capable de s'auto-améliorer. Cependant, les cadres d'auto-jeu existants souffrent souvent d'une instabilité d'optimisation, due (i) à des objectifs non stationnaires induits par des retours de récompense dépendants du solveur pour le Questionneur, et (ii) à des erreurs de bootstrap provenant des pseudo-labels auto-générés utilisés pour superviser le Solveur. Pour atténuer ces défis, nous introduisons DARC (Decoupled Asymmetric Reasoning Curriculum), un cadre en deux étapes qui stabilise le processus d'auto-évolution. Premièrement, nous entraînons le Questionneur à synthétiser des questions dont la difficulté est calibrée, conditionnées par des niveaux de difficulté explicites et des corpus externes. Deuxièmement, nous entraînons le Solveur avec un mécanisme d'auto-distillation asymétrique, où un enseignant augmenté par des documents génère des pseudo-labels de haute qualité pour superviser l'élève Solveur qui n'a pas accès aux documents. Les résultats empiriques démontrent que DARC est agnostique au modèle, produisant une amélioration moyenne de 10,9 points sur neuf benchmarks de raisonnement et trois modèles de base. De plus, DARC surpasse constamment toutes les méthodes de référence et approche les performances des modèles entièrement supervisés sans dépendre d'annotations humaines. Le code est disponible à l'adresse https://github.com/RUCBM/DARC.
English
Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.
PDF51January 22, 2026