SCOPE: Самоигра посредством коэволюционных политик для открытых задач

Аннотация

Обучение с помощью самоигры позволяет тренировать языковые модели без внешнего контроля. Однако существующие методы требуют ответов, проверяемых по правилам, оставляя задачи открытого типа зависимыми от подобранных подсказок или оценщиков на основе передовых моделей. Мы представляем SCOPE — фреймворк для самоигры без данных применительно к задачам открытого типа, который совместно развивает две политики: Challenger, генерирующий задачи на основе документов, и Solver, отвечающий на них с помощью многоэтапного поиска. Замороженная копия исходной модели выступает в роли самооценщика, который составляет специфичные для задачи рубрики на основе исходного документа и оценивает ответы Solver в соответствии с ними. На трёх инструктивно-настроенных моделях размером 7–8B (Qwen2.5, Qwen3, OLMo-3) SCOPE улучшает производительность в задачах открытого типа до +10.4 баллов по восьми бенчмаркам и достигает или превосходит результаты GRPO_data, обученной на ~9K подобранных подсказок. Несмотря на обучение только на задачах открытого типа, SCOPE также улучшает производительность в отложенных коротких вопросах-ответах до +13.8 баллов по семи отложенным бенчмаркам, превосходя GRPO_data на всех трёх моделях. Абляции показывают, что совместная эволюция Challenger необходима для удержания задач вблизи границы возможностей Solver, что улучшения обусловлены как поиском, так и синтезом с варьированием относительного вклада в зависимости от задачи, и что качество генерации рубрик является узким местом самооценки.

English

Self-play can train language models without external supervision. However, existing methods require rule-checkable answers, leaving open-ended tasks dependent on curated prompts or frontier-model judges. We introduce SCOPE, a data-free self-play framework for open-ended tasks that co-evolves two policies: a Challenger that generates document-grounded tasks, and a Solver that answers them through multi-turn retrieval. A frozen copy of the initial model serves as the self-judge, which writes task-specific rubrics from the source document and grades Solver responses against them. Across three 7-8B instruction-tuned models (Qwen2.5, Qwen3, OLMo-3), SCOPE improves open-ended performance by up to +10.4 points on eight benchmarks and matches or exceeds GRPO_data trained on ~9K curated prompts. Although trained only on open-ended tasks, SCOPE also improves held-out short-form QA by up to +13.8 points on seven held-out benchmarks, surpassing GRPO_data on all three models. Ablations show that co-evolving the Challenger is necessary to keep tasks near the Solver's frontier, that gains arise from improvements in both retrieval and synthesis with the relative contribution varying by task, and that rubric generation quality is the bottleneck for self-judging.