SCOPE : Auto-jeu via la co-évolution de politiques pour des tâches ouvertes

Résumé

L'auto-apprentissage peut entraîner des modèles de langage sans supervision externe. Cependant, les méthodes existantes nécessitent des réponses vérifiables par règles, ce qui laisse les tâches ouvertes dépendre de prompts organisés ou de juges de type modèle de pointe. Nous présentons SCOPE, un cadre d'auto-apprentissage sans données pour les tâches ouvertes, qui fait co-évoluer deux politiques : un Challenger qui génère des tâches ancrées dans des documents, et un Solver qui y répond via une recherche multi-tours. Une copie figée du modèle initial sert d'auto-juge, rédigeant des grilles d'évaluation spécifiques à chaque tâche à partir du document source et notant les réponses du Solver par rapport à celles-ci. Sur trois modèles ajustés par instructions de 7 à 8 milliards de paramètres (Qwen2.5, Qwen3, OLMo-3), SCOPE améliore la performance en tâches ouvertes jusqu'à +10,4 points sur huit benchmarks et atteint ou dépasse GRPO_data entraîné sur environ 9 000 prompts organisés. Bien qu'entraîné uniquement sur des tâches ouvertes, SCOPE améliore également les questions-réponses courtes de test jusqu'à +13,8 points sur sept benchmarks exclus, surpassant GRPO_data sur les trois modèles. Les ablations montrent que la co-évolution du Challenger est nécessaire pour maintenir les tâches proches de la frontière du Solver, que les gains proviennent d'améliorations à la fois dans la recherche et la synthèse, avec une contribution relative variable selon la tâche, et que la qualité de génération des grilles d'évaluation constitue le goulot d'étranglement de l'auto-jugement.

English

Self-play can train language models without external supervision. However, existing methods require rule-checkable answers, leaving open-ended tasks dependent on curated prompts or frontier-model judges. We introduce SCOPE, a data-free self-play framework for open-ended tasks that co-evolves two policies: a Challenger that generates document-grounded tasks, and a Solver that answers them through multi-turn retrieval. A frozen copy of the initial model serves as the self-judge, which writes task-specific rubrics from the source document and grades Solver responses against them. Across three 7-8B instruction-tuned models (Qwen2.5, Qwen3, OLMo-3), SCOPE improves open-ended performance by up to +10.4 points on eight benchmarks and matches or exceeds GRPO_data trained on ~9K curated prompts. Although trained only on open-ended tasks, SCOPE also improves held-out short-form QA by up to +13.8 points on seven held-out benchmarks, surpassing GRPO_data on all three models. Ablations show that co-evolving the Challenger is necessary to keep tasks near the Solver's frontier, that gains arise from improvements in both retrieval and synthesis with the relative contribution varying by task, and that rubric generation quality is the bottleneck for self-judging.