CodeV-R1: Verilog-Generierung mit verbessertem Reasoning
CodeV-R1: Reasoning-Enhanced Verilog Generation
May 30, 2025
Autoren: Yaoyu Zhu, Di Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs), die durch Verstärkungslernen mit überprüfbarer Belohnung (RLVR) trainiert wurden, haben Durchbrüche bei Aufgaben mit expliziter, automatisierbarer Überprüfung erzielt, wie beispielsweise Softwareprogrammierung und mathematische Probleme. Die Anwendung von RLVR auf die elektronische Designautomatisierung (EDA), insbesondere die automatische Generierung von Hardwarebeschreibungssprachen (HDLs) wie Verilog aus natürlicher Sprache (NL), stellt jedoch drei zentrale Herausforderungen dar: das Fehlen automatisierter und genauer Überprüfungsumgebungen, die Knappheit hochwertiger NL-Code-Paare und die prohibitiv hohen Rechenkosten von RLVR. Zu diesem Zweck führen wir CodeV-R1 ein, ein RLVR-Framework für das Training von Verilog-generierenden LLMs. Zunächst entwickeln wir einen regelbasierten Testbench-Generator, der eine robuste Äquivalenzprüfung gegen Referenzimplementierungen durchführt. Zweitens schlagen wir eine Round-Trip-Datensynthese-Methode vor, die Open-Source-Verilog-Snippets mit LLM-generierten NL-Beschreibungen kombiniert, die Code-NL-Code-Konsistenz über den generierten Testbench überprüft und nicht äquivalente Beispiele herausfiltert, um einen hochwertigen Datensatz zu erzeugen. Drittens verwenden wir eine zweistufige „Distill-then-RL“-Trainingspipeline: Destillation für den Kaltstart der Fähigkeiten zur logischen Schlussfolgerung, gefolgt von adaptivem DAPO, unserem neuartigen RLVR-Algorithmus, der die Trainingskosten durch adaptive Anpassung der Abtastrate reduzieren kann. Das resultierende Modell, CodeV-R1-7B, erreicht 68,6 % und 72,9 % pass@1 auf VerilogEval v2 bzw. RTLLM v1.1 und übertrifft damit den bisherigen Stand der Technik um 12~20 %, während es die Leistung von 671B DeepSeek-R1 erreicht oder sogar übertrifft. Wir werden unser Modell, die Trainingspipeline und den Datensatz veröffentlichen, um die Forschung in den EDA- und LLM-Communities zu fördern.
English
Large language models (LLMs) trained via reinforcement learning with
verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit,
automatable verification, such as software programming and mathematical
problems. Extending RLVR to electronic design automation (EDA), especially
automatically generating hardware description languages (HDLs) like Verilog
from natural-language (NL) specifications, however, poses three key challenges:
the lack of automated and accurate verification environments, the scarcity of
high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To
this end, we introduce CodeV-R1, an RLVR framework for training Verilog
generation LLMs. First, we develop a rule-based testbench generator that
performs robust equivalence checking against golden references. Second, we
propose a round-trip data synthesis method that pairs open-source Verilog
snippets with LLM-generated NL descriptions, verifies code-NL-code consistency
via the generated testbench, and filters out inequivalent examples to yield a
high-quality dataset. Third, we employ a two-stage "distill-then-RL" training
pipeline: distillation for the cold start of reasoning abilities, followed by
adaptive DAPO, our novel RLVR algorithm that can reduce training cost by
adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves
68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively,
surpassing prior state-of-the-art by 12~20%, while matching or even exceeding
the performance of 671B DeepSeek-R1. We will release our model, training
pipeline, and dataset to facilitate research in EDA and LLM communities.