DARC: 大規模言語モデル進化のための非対称推論カリキュラム分離
DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution
January 20, 2026
著者: Shengda Fan, Xuyan Ye, Yankai Lin
cs.AI
要旨
大規模言語モデルを用いた自己対戦は、自己改善型人工知能を実現する有望なパラダイムとして登場した。しかし、既存の自己対戦フレームワークは、以下の二つの要因により最適化の不安定性に悩まされることが多い。(i) 質問者に対するソルバー依存の報酬フィードバックによって引き起こされる非定常的な目的関数、(ii) ソルバーの監督に用いられる自己生成された擬似ラベルからのブートストラップ誤差。これらの課題を緩和するため、我々は自己進化プロセスを安定化する二段階フレームワークであるDARC(Decoupled Asymmetric Reasoning Curriculum)を提案する。第一段階では、明示的な難易度レベルと外部コーパスを条件として、質問者に難易度調整された質問を生成するように学習させる。第二段階では、非対称な自己蒸留メカニズムを用いてソルバーを学習させる。ここでは、文書拡張された教師モデルが高品質な擬似ラベルを生成し、文書アクセス権限を持たない生徒ソルバーを監督する。実験結果は、DARCがモデル非依存であり、3つの基盤モデルと9つの推論ベンチマークにおいて平均10.9ポイントの改善をもたらすことを示している。さらに、DARCは全てのベースラインを一貫して上回り、人間の注釈に依存することなく完全教師ありモデルの性能に迫る。コードはhttps://github.com/RUCBM/DARC で公開されている。
English
Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.