SCOPE: Zelfspel via co-evoluerende strategieën voor open-eindtaken

Samenvatting

Zelfspel kan taalmodellen trainen zonder externe supervisie. Bestaande methoden vereisen echter antwoorden die aan regels getoetst kunnen worden, waardoor open-eindtaken afhankelijk blijven van samengestelde prompts of beoordelaars op basis van grensmodellen. We introduceren SCOPE, een data-vrij zelfspelkader voor open-eindtaken dat twee beleidslijnen co-evolueert: een Uitdager die documentgebaseerde taken genereert, en een Oplosser die ze beantwoordt door middel van meerstapsretrieval. Een bevroren kopie van het oorspronkelijke model fungeert als zelfbeoordelaar, die taakspecifieke beoordelingscriteria (rubrics) uit het brondocument schrijft en antwoorden van de Oplosser aan de hand daarvan beoordeelt. Bij drie instructie-getunede modellen van 7-8B (Qwen2.5, Qwen3, OLMo-3) verbetert SCOPE de prestaties op open-eindtaken met tot +10,4 punten op acht benchmarks en evenaart of overtreft het GRPO_data dat is getraind op ~9K samengestelde prompts. Hoewel alleen getraind op open-eindtaken, verbetert SCOPE ook apart gehouden kort antwoord QA met tot +13,8 punten op zeven apart gehouden benchmarks, waarbij het GRPO_data op alle drie de modellen overtreft. Ablatiestudies tonen aan dat co-evolutie van de Uitdager noodzakelijk is om taken dicht bij de grens van de Oplosser te houden, dat winsten voortkomen uit verbeteringen in zowel retrieval als synthese, waarbij de relatieve bijdrage varieert per taak, en dat de kwaliteit van rubricgeneratie de bottleneck is voor zelfbeoordeling.

English

Self-play can train language models without external supervision. However, existing methods require rule-checkable answers, leaving open-ended tasks dependent on curated prompts or frontier-model judges. We introduce SCOPE, a data-free self-play framework for open-ended tasks that co-evolves two policies: a Challenger that generates document-grounded tasks, and a Solver that answers them through multi-turn retrieval. A frozen copy of the initial model serves as the self-judge, which writes task-specific rubrics from the source document and grades Solver responses against them. Across three 7-8B instruction-tuned models (Qwen2.5, Qwen3, OLMo-3), SCOPE improves open-ended performance by up to +10.4 points on eight benchmarks and matches or exceeds GRPO_data trained on ~9K curated prompts. Although trained only on open-ended tasks, SCOPE also improves held-out short-form QA by up to +13.8 points on seven held-out benchmarks, surpassing GRPO_data on all three models. Ablations show that co-evolving the Challenger is necessary to keep tasks near the Solver's frontier, that gains arise from improvements in both retrieval and synthesis with the relative contribution varying by task, and that rubric generation quality is the bottleneck for self-judging.