CoSPlay: Auto-Jogo Cooperativo em Tempo de Teste com Código Autogerado e Teste Unitário

Resumo

Recentemente, o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e o Escalonamento em Tempo de Teste (TTS) avançaram a geração de código por LLMs por meio de verificação executável. No entanto, os Testes Unitários com Verdade Absoluta (GT UTs) permanecem um gargalo: métodos RLVR de ponta os exigem para treinamento custoso, enquanto métodos TTS existentes perdem competitividade sem eles. Isso motiva o TTS livre de GT, onde métodos existentes usam diretamente UTs autogerados para refinar e selecionar candidatos de código. Porém, tais UTs são frequentemente ruidosos ou acoplados de forma espúria a códigos errados, e a qualidade dos UTs, por sua vez, não pode ser validada sem código confiável. O principal desafio, portanto, é melhorar ambos conjuntamente. Para isso, apresentamos o CoSPlay, uma estrutura livre de GT e de treinamento que melhora conjuntamente códigos e UTs por meio de autointeração cooperativa. Primeiro, ele explora diversas ideias de solução e identifica seus potenciais modos de falha para produzir ideias discriminativas de UT. Em seguida, usa sinais bidirecionais de contagem de aprovação provenientes da matriz de execução Código-UT para podar ou corrigir iterativamente códigos fracos e atualizar ou substituir UTs não confiáveis, permitindo que os dois conjuntos coevoluam. Finalmente, quando múltiplos códigos permanecem empatados na maior contagem de aprovação, ele seleciona o código final a partir do maior cluster de consenso de saída, uma vez que códigos corretos concordam nas mesmas entradas enquanto códigos errados divergem. Experimentos em quatro benchmarks desafiadores mostram que o CoSPlay no Qwen2.5-7B-Instruct melhora a média BoN de 22,1% para 33,2% e a precisão dos UTs de 14,6% para 78,3%, igualando ou superando o modelo RLVR CURE-7B. Quando aplicado ao CURE-7B, melhora ainda mais o BoN em 5,7%. O CoSPlay também generaliza para diferentes backbones e supera as linhas de base de TTS livre de GT sob orçamentos de tokens comparáveis, com ganhos contínuos à medida que o orçamento aumenta. Esses resultados sugerem uma estratégia de inferência escalável para geração competitiva de código sem quaisquer dados GT.

English

Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.