SCOPE: Auto-juego mediante la co-evolución de políticas para tareas abiertas

Resumen

El auto-juego puede entrenar modelos de lenguaje sin supervisión externa. Sin embargo, los métodos existentes requieren respuestas verificables por reglas, dejando las tareas abiertas dependientes de indicaciones seleccionadas o jueces de frontera. Presentamos SCOPE, un marco de auto-juego sin datos para tareas abiertas que coevoluciona dos políticas: un Desafiante que genera tareas basadas en documentos, y un Resolvedor que las responde mediante recuperación de múltiples turnos. Una copia congelada del modelo inicial sirve como auto-juez, que escribe rúbricas específicas de la tarea a partir del documento fuente y evalúa las respuestas del Resolvedor frente a ellas. En tres modelos de 7-8B ajustados por instrucciones (Qwen2.5, Qwen3, OLMo-3), SCOPE mejora el rendimiento en tareas abiertas hasta en +10,4 puntos en ocho benchmarks y iguala o supera a GRPO_data entrenado con ~9K indicaciones seleccionadas. Aunque entrenado solo en tareas abiertas, SCOPE también mejora la respuesta breve a preguntas no vistas hasta en +13,8 puntos en siete benchmarks retenidos, superando a GRPO_data en los tres modelos. Los estudios de ablación muestran que coevolucionar al Desafiante es necesario para mantener las tareas cerca de la frontera del Resolvedor, que las ganancias provienen de mejoras tanto en la recuperación como en la síntesis, con una contribución relativa que varía según la tarea, y que la calidad de la generación de rúbricas es el cuello de botella para el auto-juicio.

English

Self-play can train language models without external supervision. However, existing methods require rule-checkable answers, leaving open-ended tasks dependent on curated prompts or frontier-model judges. We introduce SCOPE, a data-free self-play framework for open-ended tasks that co-evolves two policies: a Challenger that generates document-grounded tasks, and a Solver that answers them through multi-turn retrieval. A frozen copy of the initial model serves as the self-judge, which writes task-specific rubrics from the source document and grades Solver responses against them. Across three 7-8B instruction-tuned models (Qwen2.5, Qwen3, OLMo-3), SCOPE improves open-ended performance by up to +10.4 points on eight benchmarks and matches or exceeds GRPO_data trained on ~9K curated prompts. Although trained only on open-ended tasks, SCOPE also improves held-out short-form QA by up to +13.8 points on seven held-out benchmarks, surpassing GRPO_data on all three models. Ablations show that co-evolving the Challenger is necessary to keep tasks near the Solver's frontier, that gains arise from improvements in both retrieval and synthesis with the relative contribution varying by task, and that rubric generation quality is the bottleneck for self-judging.