CoSPlay: Auto-juego Cooperativo en Tiempo de Prueba con Código Autogenerado y Pruebas Unitarias

Resumen

Recientemente, el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) y el Escalado en Tiempo de Prueba (TTS) han avanzado la generación de código en LLM mediante verificación ejecutable. Sin embargo, las Pruebas Unitarias de Verdad Absoluta (GT UTs) siguen siendo un cuello de botella: los métodos RLVR de última generación las requieren para un costoso entrenamiento, mientras que los métodos TTS existentes pierden competitividad sin ellas. Esto motiva el TTS sin GT, donde los métodos actuales utilizan directamente UTs auto-generadas para refinar y seleccionar candidatos de código. No obstante, dichas UTs suelen ser ruidosas o estar acopladas espuriamente con código erróneo, y la calidad de las UTs no puede validarse a su vez sin código fiable. Por lo tanto, el desafío clave es mejorar conjuntamente ambos aspectos. Con este fin, presentamos CoSPlay, un marco libre de GT y sin entrenamiento que mejora conjuntamente códigos y UTs mediante auto-juego cooperativo. Primero explora diversas ideas de solución e identifica sus posibles modos de fallo para producir ideas de UT discriminativas. Luego utiliza señales bidireccionales de conteo de aciertos de la matriz de ejecución Código-UT para eliminar o corregir iterativamente códigos débiles y refrescar o reemplazar UTs no fiables, permitiendo que ambos grupos co-evolucionen. Finalmente, cuando varios códigos permanecen empatados en el mayor conteo de aciertos, selecciona el código final del clúster de consenso de salida más grande, ya que los códigos correctos coinciden en las mismas entradas mientras que los incorrectos divergen. Experimentos en cuatro puntos de referencia desafiantes muestran que CoSPlay sobre Qwen2.5-7B-Instruct mejora el BoN promedio del 22,1% al 33,2% y la precisión de las UTs del 14,6% al 78,3%, igualando o superando al modelo RLVR CURE-7B. Aplicado a CURE-7B, mejora aún más el BoN en un 5,7%. CoSPlay también se generaliza a diversas arquitecturas base y supera a las líneas base de TTS sin GT bajo presupuestos de tokens comparables, con ganancias continuas a medida que el presupuesto escala. Estos resultados sugieren una estrategia de inferencia escalable para la generación competitiva de código sin ningún dato de GT.

English

Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.