CodeV-R1: Redenering-Versterkte Verilog Generatie
CodeV-R1: Reasoning-Enhanced Verilog Generation
May 30, 2025
Auteurs: Yaoyu Zhu, Di Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) die zijn getraind via reinforcement learning met verifieerbare beloning (RLVR) hebben doorbraken bereikt bij taken met expliciete, automatiseerbare verificatie, zoals softwareprogrammering en wiskundige problemen. Het uitbreiden van RLVR naar elektronische ontwerpautomatisering (EDA), met name het automatisch genereren van hardwarebeschrijvingstalen (HDLs) zoals Verilog vanuit natuurlijke taal (NL)-specificaties, brengt echter drie belangrijke uitdagingen met zich mee: het ontbreken van geautomatiseerde en nauwkeurige verificatieomgevingen, het gebrek aan hoogwaardige NL-code-paren, en de buitensporige rekenkosten van RLVR. Daarom introduceren we CodeV-R1, een RLVR-framework voor het trainen van Verilog-genererende LLMs. Ten eerste ontwikkelen we een op regels gebaseerde testbench-generator die robuuste equivalentiecontrole uitvoert tegen gouden referenties. Ten tweede stellen we een round-trip data-synthesemethode voor die open-source Verilog-fragmenten koppelt aan door LLM gegenereerde NL-beschrijvingen, code-NL-code-consistentie verifieert via de gegenereerde testbench, en niet-equivalente voorbeelden filtert om een hoogwaardige dataset te verkrijgen. Ten derde gebruiken we een tweefasen "distill-then-RL" trainingspijplijn: distillatie voor de koude start van redeneervaardigheden, gevolgd door adaptieve DAPO, ons nieuwe RLVR-algoritme dat de trainingskosten kan verlagen door adaptief de bemonsteringssnelheid aan te passen. Het resulterende model, CodeV-R1-7B, behaalt 68,6% en 72,9% pass@1 op respectievelijk VerilogEval v2 en RTLLM v1.1, wat de vorige state-of-the-art met 12~20% overtreft, terwijl het de prestaties van 671B DeepSeek-R1 evenaart of zelfs overtreft. We zullen ons model, trainingspijplijn en dataset vrijgeven om onderzoek in de EDA- en LLM-gemeenschappen te faciliteren.
English
Large language models (LLMs) trained via reinforcement learning with
verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit,
automatable verification, such as software programming and mathematical
problems. Extending RLVR to electronic design automation (EDA), especially
automatically generating hardware description languages (HDLs) like Verilog
from natural-language (NL) specifications, however, poses three key challenges:
the lack of automated and accurate verification environments, the scarcity of
high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To
this end, we introduce CodeV-R1, an RLVR framework for training Verilog
generation LLMs. First, we develop a rule-based testbench generator that
performs robust equivalence checking against golden references. Second, we
propose a round-trip data synthesis method that pairs open-source Verilog
snippets with LLM-generated NL descriptions, verifies code-NL-code consistency
via the generated testbench, and filters out inequivalent examples to yield a
high-quality dataset. Third, we employ a two-stage "distill-then-RL" training
pipeline: distillation for the cold start of reasoning abilities, followed by
adaptive DAPO, our novel RLVR algorithm that can reduce training cost by
adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves
68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively,
surpassing prior state-of-the-art by 12~20%, while matching or even exceeding
the performance of 671B DeepSeek-R1. We will release our model, training
pipeline, and dataset to facilitate research in EDA and LLM communities.