Code-A1: Adversarielle Entwicklung von Code-LLM und Test-LLM durch Reinforcement Learning

Zusammenfassung

Verstärkendes Lernen für Code-Generierung basiert auf verifizierbaren Belohnungen durch Unit-Test-Bestandsquoten. Hochwertige Test-Suiten sind jedoch rar, bestehende Datensätze bieten nur begrenzte Abdeckung, und statische Belohnungen passen sich nicht an verbesserte Modelle an. Neuere Self-Play-Methoden vereinen Code- und Testgenerierung in einem einzigen Modell, stehen jedoch vor einem grundsätzlichen Dilemma: White-Box-Zugang führt zu Selbstkollusion, bei der das Modell triviale Tests für einfache Belohnungen erzeugt, während Black-Box-Beschränkung generische Tests liefert, die implementierungsspezifische Fehler verpassen. Wir stellen Code-AI vor, einen adversariellen Ko-Evolutionsrahmen, der gemeinsam ein Code-LLM und ein Test-LLM mit entgegengesetzten Zielen optimiert. Das Code-LLM wird dafür belohnt, mehr Tests zu bestehen, während das Test-LLM belohnt wird, wenn es mehr Defekte aufdeckt. Diese architektonische Trennung beseitigt Selbstkollusionsrisiken und ermöglicht sicher White-Box-Testgenerierung, bei der das Test-LLM Kandidatencode inspizieren kann, um gezielte adversarielle Tests zu entwerfen. Wir führen weiterhin einen Fehlerbuch-Mechanismus für Experience Replay sowie eine zusammengesetzte Belohnungsfunktion ein, die Testvalidität mit adversarieller Schwierigkeit abwägt. Experimente mit Qwen2.5-Coder-Modellen zeigen, dass Code-AI eine Code-Generierungsleistung erreicht, die mit Modellen vergleichbar oder überlegen ist, die mit menschlich annotierten Tests trainiert wurden, und gleichzeitig die Testgenerierungsfähigkeit signifikant verbessert.

English

Reinforcement learning for code generation relies on verifiable rewards from unit test pass rates. Yet high-quality test suites are scarce, existing datasets offer limited coverage, and static rewards fail to adapt as models improve. Recent self-play methods unify code and test generation in a single model, but face a inherent dilemma: white-box access leads to self-collusion where the model produces trivial tests for easy rewards, yet black-box restriction yields generic tests that miss implementation-specific bugs. We introduce Code-A1, an adversarial co-evolution framework that jointly optimizes a Code LLM and a Test LLM with opposing objectives. The Code LLM is rewarded for passing more tests, while the Test LLM is rewarded for exposing more defects. This architectural separation eliminates self-collusion risks and safely enables white-box test generation, where the Test LLM can inspect candidate code to craft targeted adversarial tests. We further introduce a Mistake Book mechanism for experience replay and a composite reward balancing test validity with adversarial difficulty. Experiments on Qwen2.5-Coder models demonstrate that Code-A1 achieves code generation performance matching or exceeding models trained on human-annotated tests, while significantly improving test generation capability.

Code-A1: Adversarielle Entwicklung von Code-LLM und Test-LLM durch Reinforcement Learning

Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning

Zusammenfassung

Support