ChatPaper.aiChatPaper

CodeV-R1 : Génération de Verilog Améliorée par le Raisonnement

CodeV-R1: Reasoning-Enhanced Verilog Generation

May 30, 2025
Auteurs: Yaoyu Zhu, Di Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen
cs.AI

Résumé

Les grands modèles de langage (LLM) entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) ont réalisé des avancées majeures sur des tâches à vérification explicite et automatisable, telles que la programmation logicielle et les problèmes mathématiques. Cependant, l'extension du RLVR à l'automatisation de la conception électronique (EDA), en particulier la génération automatique de langages de description matérielle (HDL) comme Verilog à partir de spécifications en langage naturel (NL), pose trois défis majeurs : l'absence d'environnements de vérification automatisés et précis, la rareté de paires NL-code de haute qualité, et le coût de calcul prohibitif du RLVR. Pour répondre à ces enjeux, nous présentons CodeV-R1, un cadre RLVR pour l'entraînement de LLM générant du Verilog. Premièrement, nous développons un générateur de bancs d'essai basé sur des règles qui effectue une vérification robuste de l'équivalence par rapport à des références dorées. Deuxièmement, nous proposons une méthode de synthèse de données en boucle qui associe des extraits de Verilog open-source à des descriptions NL générées par LLM, vérifie la cohérence code-NL-code via le banc d'essai généré, et filtre les exemples non équivalents pour produire un jeu de données de haute qualité. Troisièmement, nous utilisons un pipeline d'entraînement en deux étapes "distillation puis RL" : la distillation pour l'amorçage des capacités de raisonnement, suivie de DAPO adaptatif, notre nouvel algorithme RLVR qui peut réduire le coût d'entraînement en ajustant dynamiquement le taux d'échantillonnage. Le modèle résultant, CodeV-R1-7B, atteint 68,6% et 72,9% de pass@1 sur VerilogEval v2 et RTLLM v1.1, respectivement, surpassant les précédents états de l'art de 12 à 20%, tout en égalant voire dépassant les performances du DeepSeek-R1 de 671B. Nous publierons notre modèle, pipeline d'entraînement et jeu de données pour favoriser la recherche dans les communautés EDA et LLM.
English
Large language models (LLMs) trained via reinforcement learning with verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit, automatable verification, such as software programming and mathematical problems. Extending RLVR to electronic design automation (EDA), especially automatically generating hardware description languages (HDLs) like Verilog from natural-language (NL) specifications, however, poses three key challenges: the lack of automated and accurate verification environments, the scarcity of high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To this end, we introduce CodeV-R1, an RLVR framework for training Verilog generation LLMs. First, we develop a rule-based testbench generator that performs robust equivalence checking against golden references. Second, we propose a round-trip data synthesis method that pairs open-source Verilog snippets with LLM-generated NL descriptions, verifies code-NL-code consistency via the generated testbench, and filters out inequivalent examples to yield a high-quality dataset. Third, we employ a two-stage "distill-then-RL" training pipeline: distillation for the cold start of reasoning abilities, followed by adaptive DAPO, our novel RLVR algorithm that can reduce training cost by adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves 68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively, surpassing prior state-of-the-art by 12~20%, while matching or even exceeding the performance of 671B DeepSeek-R1. We will release our model, training pipeline, and dataset to facilitate research in EDA and LLM communities.
PDF82June 3, 2025