CodeV-R1: Generación de Verilog Mejorada con Razonamiento

Resumen

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) entrenados mediante aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés) han logrado avances significativos en tareas con verificación explícita y automatizable, como la programación de software y la resolución de problemas matemáticos. Sin embargo, extender el RLVR a la automatización del diseño electrónico (EDA, por sus siglas en inglés), especialmente en la generación automática de lenguajes de descripción de hardware (HDLs, por sus siglas en inglés) como Verilog a partir de especificaciones en lenguaje natural (NL, por sus siglas en inglés), presenta tres desafíos clave: la falta de entornos de verificación automatizados y precisos, la escasez de pares NL-código de alta calidad y el costo computacional prohibitivo del RLVR. Para abordar estos problemas, presentamos CodeV-R1, un marco de RLVR para entrenar LLMs en la generación de Verilog. En primer lugar, desarrollamos un generador de bancos de pruebas basado en reglas que realiza una verificación robusta de equivalencia frente a referencias doradas. En segundo lugar, proponemos un método de síntesis de datos de ida y vuelta que empareja fragmentos de Verilog de código abierto con descripciones en NL generadas por LLMs, verifica la consistencia código-NL-código mediante el banco de pruebas generado y filtra los ejemplos no equivalentes para obtener un conjunto de datos de alta calidad. En tercer lugar, empleamos una canalización de entrenamiento en dos etapas "distilar-y-luego-RL": destilación para el arranque en frío de las habilidades de razonamiento, seguida de DAPO adaptativo, nuestro novedoso algoritmo de RLVR que puede reducir el costo de entrenamiento ajustando adaptativamente la tasa de muestreo. El modelo resultante, CodeV-R1-7B, alcanza un 68.6% y un 72.9% en pass@1 en VerilogEval v2 y RTLLM v1.1, respectivamente, superando el estado del arte anterior en un 12~20%, mientras iguala o incluso supera el rendimiento de DeepSeek-R1 de 671B. Publicaremos nuestro modelo, la canalización de entrenamiento y el conjunto de datos para facilitar la investigación en las comunidades de EDA y LLMs.

English

Large language models (LLMs) trained via reinforcement learning with verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit, automatable verification, such as software programming and mathematical problems. Extending RLVR to electronic design automation (EDA), especially automatically generating hardware description languages (HDLs) like Verilog from natural-language (NL) specifications, however, poses three key challenges: the lack of automated and accurate verification environments, the scarcity of high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To this end, we introduce CodeV-R1, an RLVR framework for training Verilog generation LLMs. First, we develop a rule-based testbench generator that performs robust equivalence checking against golden references. Second, we propose a round-trip data synthesis method that pairs open-source Verilog snippets with LLM-generated NL descriptions, verifies code-NL-code consistency via the generated testbench, and filters out inequivalent examples to yield a high-quality dataset. Third, we employ a two-stage "distill-then-RL" training pipeline: distillation for the cold start of reasoning abilities, followed by adaptive DAPO, our novel RLVR algorithm that can reduce training cost by adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves 68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively, surpassing prior state-of-the-art by 12~20%, while matching or even exceeding the performance of 671B DeepSeek-R1. We will release our model, training pipeline, and dataset to facilitate research in EDA and LLM communities.

CodeV-R1: Generación de Verilog Mejorada con Razonamiento

CodeV-R1: Reasoning-Enhanced Verilog Generation

Resumen

Support