ChatPaper.aiChatPaper

DARC: Entkoppelter asymmetrischer Denkcurriculum für die LLM-Entwicklung

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

January 20, 2026
papers.authors: Shengda Fan, Xuyan Ye, Yankai Lin
cs.AI

papers.abstract

Selbstspiel mit großen Sprachmodellen hat sich als vielversprechendes Paradigma zur Erreichung sich selbst verbessernder künstlicher Intelligenz erwiesen. Allerdings leiden bestehende Selbstspiel-Frameworks häufig unter Instabilität während der Optimierung, verursacht durch (i) nicht-stationäre Zielvorgaben, die durch lösungsabhängiges Reward-Feedback für den Fragensteller induziert werden, und (ii) Bootstrapping-Fehler aus selbstgenerierten Pseudo-Labels, die zur Supervision des Lösers verwendet werden. Um diese Herausforderungen zu bewältigen, stellen wir DARC (Decoupled Asymmetric Reasoning Curriculum) vor, ein zweistufiges Framework, das den Selbstevolutionsprozess stabilisiert. Zuerst trainieren wir den Fragensteller, schwierigkeitskalibrierte Fragen zu synthetisieren, die von expliziten Schwierigkeitsgraden und externen Korpora abhängen. Anschließend trainieren wir den Löser mit einem asymmetrischen Selbstdistillationsmechanismus, bei dem ein dokumenten-erweiterter Lehrer hochwertige Pseudo-Labels erzeugt, um den studentischen Löser ohne Dokumentenzugang zu supervidiieren. Empirische Ergebnisse zeigen, dass DARC modellagnostisch ist und eine durchschnittliche Verbesserung von 10,9 Punkten über neun Reasoning-Benchmarks und drei Basis-Modelle hinweg erzielt. Darüber hinaus übertrifft DARC durchgängig alle Baseline-Modelle und nähert sich der Leistung vollständig supervidierten Modelle an, ohne auf menschliche Annotationen angewiesen zu sein. Der Code ist verfügbar unter https://github.com/RUCBM/DARC.
English
Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.
PDF51January 22, 2026