Code-A1: Adversariële Evolutie van Code-LLM en Test-LLM via Versterkend Leren

Samenvatting

Versterkend leren voor codegeneratie is afhankelijk van verifieerbare beloningen op basis van de slagingspercentages van unittests. Toch zijn hoogwaardige testsuites schaars, bestaande datasets bieden beperkte dekking, en statische beloningen passen zich niet aan wanneer modellen verbeteren. Recente zelfspeelmethoden verenigen code- en testgeneratie in één model, maar kampen met een inherent dilemma: white-box toegang leidt tot zelfcollusie, waarbij het model triviale tests produceert voor eenvoudige beloningen, terwijl black-box restrictie generieke tests oplevert die implementatiespecifieke bugs missen. Wij introduceren Code-A1, een adversariaal co-evolutiekader dat gezamenlijk een Code-LLM en een Test-LLM optimaliseert met tegenstrijdige doelstellingen. De Code-LLM wordt beloond voor het slagen voor meer tests, terwijl de Test-LLM wordt beloond voor het blootleggen van meer defecten. Deze architecturale scheiding elimineert zelfcollusierisico's en maakt white-box testgeneratie veilig mogelijk, waarbij de Test-LLM kandidaatcode kan inspecteren om gerichte adversariële tests te ontwerpen. Wij introduceren verder een Foutenboek-mechanisme voor ervaringsherhaling en een samengestelde beloning die testvaliditeit balanceert met adversariële moeilijkheidsgraad. Experimenten met Qwen2.5-Coder-modellen tonen aan dat Code-A1 codegeneratieprestaties bereikt die gelijk zijn aan of beter dan modellen getraind op door mensen geannoteerde tests, terwijl de testgeneratiecapaciteit aanzienlijk verbetert.

English

Reinforcement learning for code generation relies on verifiable rewards from unit test pass rates. Yet high-quality test suites are scarce, existing datasets offer limited coverage, and static rewards fail to adapt as models improve. Recent self-play methods unify code and test generation in a single model, but face a inherent dilemma: white-box access leads to self-collusion where the model produces trivial tests for easy rewards, yet black-box restriction yields generic tests that miss implementation-specific bugs. We introduce Code-A1, an adversarial co-evolution framework that jointly optimizes a Code LLM and a Test LLM with opposing objectives. The Code LLM is rewarded for passing more tests, while the Test LLM is rewarded for exposing more defects. This architectural separation eliminates self-collusion risks and safely enables white-box test generation, where the Test LLM can inspect candidate code to craft targeted adversarial tests. We further introduce a Mistake Book mechanism for experience replay and a composite reward balancing test validity with adversarial difficulty. Experiments on Qwen2.5-Coder models demonstrate that Code-A1 achieves code generation performance matching or exceeding models trained on human-annotated tests, while significantly improving test generation capability.

Code-A1: Adversariële Evolutie van Code-LLM en Test-LLM via Versterkend Leren

Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning

Samenvatting

Support