SCOPE: Auto-jogo via Políticas Coevolutivas para Tarefas de Final Aberto

Resumo

O auto-jogo pode treinar modelos de linguagem sem supervisão externa. No entanto, os métodos existentes exigem respostas verificáveis por regras, deixando tarefas abertas dependentes de prompts curados ou de juízes baseados em modelos de ponta. Apresentamos o SCOPE, uma estrutura de auto-jogo livre de dados para tarefas abertas que co-evolui duas políticas: um Desafiante, que gera tarefas fundamentadas em documentos, e um Solucionador, que as responde por meio de recuperação em múltiplas etapas. Uma cópia congelada do modelo inicial atua como auto-juiz, que escreve rubricas específicas da tarefa a partir do documento fonte e avalia as respostas do Solucionador com base nessas rubricas. Em três modelos ajustados por instruções de 7 a 8B (Qwen2.5, Qwen3, OLMo-3), o SCOPE melhora o desempenho em tarefas abertas em até +10,4 pontos em oito benchmarks e iguala ou supera o GRPO_data treinado com aproximadamente 9 mil prompts curados. Embora treinado apenas em tarefas abertas, o SCOPE também melhora o QA de formato curto não visto em até +13,8 pontos em sete benchmarks retidos, superando o GRPO_data nos três modelos. Ablações mostram que co-evoluir o Desafiante é necessário para manter as tarefas próximas da fronteira do Solucionador, que os ganhos advêm de melhorias tanto na recuperação quanto na síntese, com contribuição relativa variando por tarefa, e que a qualidade da geração de rubricas é o gargalo para a auto-avaliação.

English

Self-play can train language models without external supervision. However, existing methods require rule-checkable answers, leaving open-ended tasks dependent on curated prompts or frontier-model judges. We introduce SCOPE, a data-free self-play framework for open-ended tasks that co-evolves two policies: a Challenger that generates document-grounded tasks, and a Solver that answers them through multi-turn retrieval. A frozen copy of the initial model serves as the self-judge, which writes task-specific rubrics from the source document and grades Solver responses against them. Across three 7-8B instruction-tuned models (Qwen2.5, Qwen3, OLMo-3), SCOPE improves open-ended performance by up to +10.4 points on eight benchmarks and matches or exceeds GRPO_data trained on ~9K curated prompts. Although trained only on open-ended tasks, SCOPE also improves held-out short-form QA by up to +13.8 points on seven held-out benchmarks, surpassing GRPO_data on all three models. Ablations show that co-evolving the Challenger is necessary to keep tasks near the Solver's frontier, that gains arise from improvements in both retrieval and synthesis with the relative contribution varying by task, and that rubric generation quality is the bottleneck for self-judging.