ChatPaper.aiChatPaper

CoSPlay: Coöperatief Zelfspel tijdens het Testen met Zelfgegenereerde Code en Unittest

CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

May 22, 2026
Auteurs: Zhangyi Hu, Chenhui Liu, Tian Huang, Jindong Li, Yang Yang, Jiemin Wu, Zining Zhong, Menglin Yang, Yutao Yue
cs.AI

Samenvatting

Recentelijk hebben Reinforcement Learning with Verifiable Rewards (RLVR) en Test-Time Scaling (TTS) de LLM-codegeneratie vooruitgeholpen door middel van uitvoerbare verificatie. Toch blijven Grondwaarheid Eenheidstests (GT UTs) een knelpunt: state-of-the-art RLVR-methoden hebben ze nodig voor dure training, terwijl bestaande TTS-methoden zonder hen concurrentievermogen verliezen. Dit motiveert GT-vrije TTS, waarbij bestaande methoden direct zelf gegenereerde UTs gebruiken om codekandidaten te verfijnen en selecteren. Toch zijn dergelijke UTs vaak ruisachtig of onecht gekoppeld aan verkeerde code, en de UT-kwaliteit kan op zijn beurt niet worden gevalideerd zonder betrouwbare code. De belangrijkste uitdaging is dan ook om beide gezamenlijk te verbeteren. Hiertoe presenteren we CoSPlay, een GT-vrij, trainingsvrij raamwerk dat codes en UTs gezamenlijk verbetert door middel van coöperatief zelfspel. Het verkent eerst diverse oplossingsideeën en identificeert hun potentiële faalwijzen om onderscheidende UT-ideeën te produceren. Vervolgens gebruikt het bidirectionele geslaagd-telsignalen van de Code-UT-uitvoeringsmatrix om iteratief zwakke codes te snoeien of te repareren en onbetrouwbare UTs te vernieuwen of te vervangen, waardoor de twee pools co-evolueren. Ten slotte, wanneer meerdere codes gebonden blijven op de hoogste geslaagd-telling, kiest het de uiteindelijke code uit het grootste output-consensuscluster, aangezien correcte codes het eens zijn over dezelfde invoer terwijl verkeerde codes uiteenlopen. Experimenten op vier uitdagende benchmarks tonen aan dat CoSPlay op Qwen2.5-7B-Instruct de gemiddelde BoN verbetert van 22,1% naar 33,2% en de UT-nauwkeurigheid van 14,6% naar 78,3%, wat overeenkomt met of beter is dan het RLVR-model CURE-7B. Wanneer toegepast op CURE-7B, verbetert het de BoN verder met 5,7%. CoSPlay generaliseert ook over diverse backbones en presteert beter dan GT-vrije TTS-baselines onder vergelijkbare tokenbudgetten, met voortdurende winst naarmate het budget opschaalt. Deze resultaten suggereren een schaalbare inferentiestrategie voor competitieve codegeneratie zonder enige GT-gegevens.
English
Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.