SCOPE: Selbstspiel mittels ko-evolvierender Policies für offene Aufgaben

Zusammenfassung

Selbstspiel kann Sprachmodelle ohne externe Überwachung trainieren. Allerdings erfordern bestehende Methoden regelüberprüfbare Antworten, sodass offene Aufgaben auf kuratierte Aufforderungen oder Bewertungen durch Frontier-Modelle angewiesen sind. Wir stellen SCOPE vor, ein datenfreies Selbstspiel-Framework für offene Aufgaben, das zwei Policies ko-evolviert: einen Challenger, der dokumentengestützte Aufgaben erzeugt, und einen Solver, der diese durch mehrschrittige Abfrage beantwortet. Eine eingefrorene Kopie des Ausgangsmodells dient als Selbstbewertung, die aus dem Quelldokument aufgabenspezifische Bewertungsrubriken erstellt und die Antworten des Solvers anhand dieser Rubriken bewertet. Über drei instruktionsabgestimmte Modelle mit 7-8B Parametern (Qwen2.5, Qwen3, OLMo-3) hinweg verbessert SCOPE die Leistung bei offenen Aufgaben um bis zu +10,4 Punkte auf acht Benchmarks und erreicht oder übertrifft GRPO_data, das mit ~9K kuratierten Aufforderungen trainiert wurde. Obwohl SCOPE nur auf offenen Aufgaben trainiert wurde, verbessert es auch die zurückgehaltene Kurzantwort-QA um bis zu +13,8 Punkte auf sieben zurückgehaltenen Benchmarks und übertrifft GRPO_data bei allen drei Modellen. Ablationen zeigen, dass die Ko-Evolution des Challengers notwendig ist, um die Aufgaben nahe an der Leistungsgrenze des Solvers zu halten, dass die Verbesserungen aus Fortschritten sowohl bei der Abfrage als auch bei der Synthese resultieren, wobei der relative Beitrag je nach Aufgabe variiert, und dass die Qualität der Rubrikenerstellung den Engpass für die Selbstbewertung darstellt.

English

Self-play can train language models without external supervision. However, existing methods require rule-checkable answers, leaving open-ended tasks dependent on curated prompts or frontier-model judges. We introduce SCOPE, a data-free self-play framework for open-ended tasks that co-evolves two policies: a Challenger that generates document-grounded tasks, and a Solver that answers them through multi-turn retrieval. A frozen copy of the initial model serves as the self-judge, which writes task-specific rubrics from the source document and grades Solver responses against them. Across three 7-8B instruction-tuned models (Qwen2.5, Qwen3, OLMo-3), SCOPE improves open-ended performance by up to +10.4 points on eight benchmarks and matches or exceeds GRPO_data trained on ~9K curated prompts. Although trained only on open-ended tasks, SCOPE also improves held-out short-form QA by up to +13.8 points on seven held-out benchmarks, surpassing GRPO_data on all three models. Ablations show that co-evolving the Challenger is necessary to keep tasks near the Solver's frontier, that gains arise from improvements in both retrieval and synthesis with the relative contribution varying by task, and that rubric generation quality is the bottleneck for self-judging.