CoSPlay: Кооперативная самоигра во время тестирования с самогенерируемым кодом и модульными тестами

Аннотация

Недавно обучение с подкреплением с верифицируемыми наградами (RLVR) и масштабирование во время тестирования (TTS) продвинули генерацию кода большими языковыми моделями с помощью исполняемой верификации. Однако эталонные модульные тесты (GT UT) остаются узким местом: современные методы RLVR требуют их для дорогостоящего обучения, в то время как существующие методы TTS теряют конкурентоспособность без них. Это мотивирует развитие подхода GT-free TTS, где существующие методы напрямую используют самостоятельно сгенерированные UT для уточнения и отбора кандидатов кода. Однако такие UT часто зашумлены или ложно связаны с неправильным кодом, а качество UT, в свою очередь, невозможно проверить без надежного кода. Таким образом, ключевая задача — совместно улучшить и то, и другое. Для этого мы представляем CoSPlay — фреймворк без использования GT и без обучения, который совместно улучшает код и UT с помощью кооперативной самоигры. Он сначала исследует разнообразные идеи решений и выявляет их потенциальные режимы отказа для генерации дискриминационных идей UT. Затем он использует двунаправленные сигналы количества прохождений из матрицы выполнения код-UT для итеративного удаления или исправления слабого кода, а также обновления или замены ненадежных UT, позволяя двум пулам совместно эволюционировать. Наконец, когда несколько кодов остаются связанными по наивысшему количеству прохождений, финальный код выбирается из наибольшего кластера с консенсусом по выходным данным, поскольку правильные коды согласуются на одних и тех же входных данных, а неправильные расходятся. Эксперименты на четырех сложных бенчмарках показывают, что CoSPlay на Qwen2.5-7B-Instruct улучшает средний BoN с 22,1% до 33,2% и точность UT с 14,6% до 78,3%, достигая или превосходя модель RLVR CURE-7B. При применении к CURE-7B он дополнительно улучшает BoN на 5,7%. CoSPlay также обобщается на различные базовые архитектуры и превосходит базовые методы GT-free TTS при сопоставимых бюджетах токенов, с дальнейшим ростом при увеличении бюджета. Эти результаты указывают на масштабируемую стратегию инференса для конкурентоспособной генерации кода без каких-либо данных GT.

English

Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.