CoSPlay: Kooperatives Selbstspiel zur Testzeit mit selbstgeneriertem Code und Unit-Tests

Zusammenfassung

In letzter Zeit haben Reinforcement Learning with Verifiable Rewards (RLVR) und Test-Time Scaling (TTS) die LLM-Codegenerierung durch ausführbare Verifikation vorangebracht. Doch Ground-Truth Unit Tests (GT UTs) bleiben ein Engpass: SOTA-RLVR-Methoden benötigen sie für kostspieliges Training, während bestehende TTS-Methoden ohne sie an Wettbewerbsfähigkeit verlieren. Dies motiviert GT-freies TTS, bei dem bestehende Methoden direkt selbstgenerierte UTs verwenden, um Code-Kandidaten zu verfeinern und auszuwählen. Jedoch sind solche UTs oft verrauscht oder fälschlicherweise mit falschem Code gekoppelt, und die Qualität der UTs kann wiederum ohne zuverlässigen Code nicht validiert werden. Die zentrale Herausforderung besteht daher darin, beide gleichzeitig zu verbessern. Zu diesem Zweck stellen wir CoSPlay vor, ein GT-freies, trainingsfreies Framework, das Codes und UTs durch kooperatives Selbstspiel gemeinsam verbessert. Es untersucht zunächst verschiedene Lösungsideen und identifiziert deren potenzielle Fehlermodi, um diskriminative UT-Ideen zu erzeugen. Anschließend verwendet es bidirektionale Bestehenszählsignale aus der Code-UT-Ausführungsmatrix, um schwache Codes iterativ zu entfernen oder zu korrigieren und unzuverlässige UTs zu aktualisieren oder zu ersetzen, sodass sich die beiden Pools gemeinsam weiterentwickeln. Schließlich, wenn mehrere Codes bei der höchsten Bestehenszahl gleichauf liegen, wählt es den endgültigen Code aus dem größten Output-Konsens-Cluster, da korrekte Codes bei denselben Eingaben übereinstimmen, während falsche Codes abweichen. Experimente auf vier anspruchsvollen Benchmarks zeigen, dass CoSPlay auf Qwen2.5-7B-Instruct den durchschnittlichen BoN von 22,1 % auf 33,2 % und die UT-Genauigkeit von 14,6 % auf 78,3 % verbessert und damit dem RLVR-Modell CURE-7B entspricht oder es übertrifft. Angewendet auf CURE-7B verbessert es BoN um weitere 5,7 %. CoSPlay generalisiert auch über verschiedene Backbones hinweg und übertrifft GT-freie TTS-Baselines unter vergleichbaren Token-Budgets, mit anhaltenden Verbesserungen bei steigendem Budget. Diese Ergebnisse deuten auf eine skalierbare Inferenzstrategie für wettbewerbsfähige Codegenerierung ohne jegliche GT-Daten hin.

English

Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.