CodeV-R1: Geração de Verilog Aprimorada por Raciocínio
CodeV-R1: Reasoning-Enhanced Verilog Generation
May 30, 2025
Autores: Yaoyu Zhu, Di Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) treinados por meio de aprendizado por reforço com recompensa verificável (RLVR) alcançaram avanços significativos em tarefas com verificação explícita e automatizável, como programação de software e problemas matemáticos. No entanto, estender o RLVR para automação de projeto eletrônico (EDA), especialmente para a geração automática de linguagens de descrição de hardware (HDLs) como Verilog a partir de especificações em linguagem natural (NL), apresenta três desafios principais: a falta de ambientes de verificação automatizados e precisos, a escassez de pares NL-código de alta qualidade e o custo computacional proibitivo do RLVR. Para isso, introduzimos o CodeV-R1, um framework RLVR para treinar LLMs de geração de Verilog. Primeiro, desenvolvemos um gerador de bancos de teste baseado em regras que realiza verificações robustas de equivalência em relação a referências de ouro. Segundo, propomos um método de síntese de dados de ida e volta que emparelha trechos de Verilog de código aberto com descrições NL geradas por LLM, verifica a consistência código-NL-código por meio do banco de teste gerado e filtra exemplos não equivalentes para produzir um conjunto de dados de alta qualidade. Terceiro, empregamos um pipeline de treinamento em duas etapas "distill-then-RL": destilação para o início frio das habilidades de raciocínio, seguido pelo DAPO adaptativo, nosso novo algoritmo RLVR que pode reduzir o custo de treinamento ao ajustar adaptativamente a taxa de amostragem. O modelo resultante, CodeV-R1-7B, alcança 68,6% e 72,9% de pass@1 no VerilogEval v2 e RTLLM v1.1, respectivamente, superando o estado da arte anterior em 12~20%, enquanto iguala ou até excede o desempenho do DeepSeek-R1 de 671B. Liberaremos nosso modelo, pipeline de treinamento e conjunto de dados para facilitar pesquisas nas comunidades de EDA e LLM.
English
Large language models (LLMs) trained via reinforcement learning with
verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit,
automatable verification, such as software programming and mathematical
problems. Extending RLVR to electronic design automation (EDA), especially
automatically generating hardware description languages (HDLs) like Verilog
from natural-language (NL) specifications, however, poses three key challenges:
the lack of automated and accurate verification environments, the scarcity of
high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To
this end, we introduce CodeV-R1, an RLVR framework for training Verilog
generation LLMs. First, we develop a rule-based testbench generator that
performs robust equivalence checking against golden references. Second, we
propose a round-trip data synthesis method that pairs open-source Verilog
snippets with LLM-generated NL descriptions, verifies code-NL-code consistency
via the generated testbench, and filters out inequivalent examples to yield a
high-quality dataset. Third, we employ a two-stage "distill-then-RL" training
pipeline: distillation for the cold start of reasoning abilities, followed by
adaptive DAPO, our novel RLVR algorithm that can reduce training cost by
adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves
68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively,
surpassing prior state-of-the-art by 12~20%, while matching or even exceeding
the performance of 671B DeepSeek-R1. We will release our model, training
pipeline, and dataset to facilitate research in EDA and LLM communities.