CodeV-R1: Generazione Verilog Potenziata dal Ragionamento

Abstract

I modelli linguistici di grandi dimensioni (LLM) addestrati tramite apprendimento per rinforzo con ricompensa verificabile (RLVR) hanno ottenuto progressi significativi in compiti con verifica esplicita e automatizzabile, come la programmazione software e i problemi matematici. Estendere l'RLVR all'automazione del design elettronico (EDA), in particolare alla generazione automatica di linguaggi di descrizione hardware (HDL) come Verilog a partire da specifiche in linguaggio naturale (NL), presenta tuttavia tre sfide principali: la mancanza di ambienti di verifica automatizzati e accurati, la scarsità di coppie NL-codice di alta qualità e il costo computazionale proibitivo dell'RLVR. A tal fine, introduciamo CodeV-R1, un framework RLVR per l'addestramento di LLM per la generazione di Verilog. In primo luogo, sviluppiamo un generatore di testbench basato su regole che esegue un controllo di equivalenza robusto rispetto a riferimenti golden. In secondo luogo, proponiamo un metodo di sintesi dati round-trip che abbina frammenti di Verilog open-source a descrizioni NL generate da LLM, verifica la coerenza codice-NL-codice tramite il testbench generato e filtra gli esempi non equivalenti per produrre un dataset di alta qualità. In terzo luogo, utilizziamo una pipeline di addestramento in due fasi "distill-then-RL": distillazione per l'avvio a freddo delle capacità di ragionamento, seguita da DAPO adattivo, il nostro nuovo algoritmo RLVR che può ridurre il costo di addestramento regolando in modo adattivo la frequenza di campionamento. Il modello risultante, CodeV-R1-7B, raggiunge il 68,6% e il 72,9% di pass@1 su VerilogEval v2 e RTLLM v1.1, rispettivamente, superando i precedenti state-of-the-art del 12~20%, eguagliando o addirittura superando le prestazioni di DeepSeek-R1 da 671B. Rilasceremo il nostro modello, la pipeline di addestramento e il dataset per favorire la ricerca nelle comunità EDA e LLM.

English

Large language models (LLMs) trained via reinforcement learning with verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit, automatable verification, such as software programming and mathematical problems. Extending RLVR to electronic design automation (EDA), especially automatically generating hardware description languages (HDLs) like Verilog from natural-language (NL) specifications, however, poses three key challenges: the lack of automated and accurate verification environments, the scarcity of high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To this end, we introduce CodeV-R1, an RLVR framework for training Verilog generation LLMs. First, we develop a rule-based testbench generator that performs robust equivalence checking against golden references. Second, we propose a round-trip data synthesis method that pairs open-source Verilog snippets with LLM-generated NL descriptions, verifies code-NL-code consistency via the generated testbench, and filters out inequivalent examples to yield a high-quality dataset. Third, we employ a two-stage "distill-then-RL" training pipeline: distillation for the cold start of reasoning abilities, followed by adaptive DAPO, our novel RLVR algorithm that can reduce training cost by adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves 68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively, surpassing prior state-of-the-art by 12~20%, while matching or even exceeding the performance of 671B DeepSeek-R1. We will release our model, training pipeline, and dataset to facilitate research in EDA and LLM communities.

CodeV-R1: Generazione Verilog Potenziata dal Ragionamento

CodeV-R1: Reasoning-Enhanced Verilog Generation

Abstract

Support