CoSPlay : Auto-jeu coopératif en phase de test avec code et tests unitaires auto-générés

Résumé

Récemment, l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) et la Mise à l'Échelle au Moment du Test (TTS) ont fait progresser la génération de code par LLM via une vérification exécutable. Pourtant, les Tests Unitaires de Vérité Terrain (GT UTs) restent un goulot d'étranglement : les méthodes RLVR de pointe les exigent pour un entraînement coûteux, tandis que les méthodes TTS existantes perdent en compétitivité sans eux. Cela motive le TTS sans GT, où les méthodes existantes utilisent directement des UT auto-générés pour affiner et sélectionner les candidats de code. Cependant, ces UT sont souvent bruités ou couplés de manière fallacieuse à un code erroné, et la qualité des UT ne peut à son tour être validée sans code fiable. Le défi clé est donc d'améliorer conjointement les deux. À cette fin, nous présentons CoSPlay, un cadre sans GT et sans entraînement qui améliore conjointement les codes et les UT par auto-jeu coopératif. Il explore d'abord diverses idées de solutions et identifie leurs modes d'échec potentiels pour produire des idées d'UT discriminantes. Il utilise ensuite des signaux bidirectionnels de nombre de passages provenant de la matrice d'exécution Code-UT pour élaguer ou corriger itérativement les codes faibles et rafraîchir ou remplacer les UT peu fiables, permettant aux deux pools de co-évoluer. Enfin, lorsque plusieurs codes restent à égalité au nombre de passages le plus élevé, il sélectionne le code final à partir du plus grand groupe de consensus de sortie, car les codes corrects s'accordent sur les mêmes entrées tandis que les codes erronés divergent. Des expériences sur quatre benchmarks exigeants montrent que CoSPlay sur Qwen2.5-7B-Instruct améliore le BoN moyen de 22,1 % à 33,2 % et la précision des UT de 14,6 % à 78,3 %, égalant ou surpassant le modèle RLVR CURE-7B. Appliqué à CURE-7B, il améliore encore le BoN de 5,7 %. CoSPlay se généralise également à diverses architectures de base et surpasse les bases de référence TTS sans GT sous des budgets de jetons comparables, avec des gains continus à mesure que le budget augmente. Ces résultats suggèrent une stratégie d'inférence scalable pour une génération de code compétitive sans aucune donnée GT.

English

Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.