DARC: Ontkoppeld Asymmetrisch Redeneercurriculum voor LLM-evolutie

Samenvatting

Zelfspel met grote taalmodellen is naar voren gekomen als een veelbelovend paradigma voor het bereiken van zelfverbeterende kunstmatige intelligentie. Bestaande zelfspelraamwerken kampen echter vaak met instabiliteit tijdens de optimalisatie, veroorzaakt door (i) niet-stationaire doelstellingen als gevolg van solver-afhankelijke beloningsfeedback voor de Vragensteller, en (ii) bootstrapfouten afkomstig van zelfgegenereerde pseudo-labels die worden gebruikt om de Oplosser te trainen. Om deze uitdagingen het hoofd te bieden, introduceren we DARC (Decoupled Asymmetric Reasoning Curriculum), een raamwerk met twee fasen dat het zelf-evolutieproces stabiliseert. Eerst trainen we de Vragensteller om moeilijkheidsgekalibreerde vragen te synthetiseren, gebaseerd op expliciete moeilijkheidsgraden en externe corpora. Vervolgens trainen we de Oplosser met een asymmetrisch zelfdistillatiemechanisme, waarbij een document-ondersteunde leraar hoogwaardige pseudo-labels genereert om de student-Oplosser, die geen documenttoegang heeft, te trainen. Empirische resultaten tonen aan dat DARC model-agnostisch is en een gemiddelde verbetering van 10.9 punten oplevert over negen redeneerbenchmarks en drie onderliggende modellen. Bovendien presteert DARC consistent beter dan alle baseline-methoden en benadert het de prestaties van volledig gesuperviseerde modellen zonder afhankelijk te zijn van menselijke annotaties. De code is beschikbaar op https://github.com/RUCBM/DARC.

English

Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.

DARC: Ontkoppeld Asymmetrisch Redeneercurriculum voor LLM-evolutie

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

Samenvatting

Support