CodeV-R1: Генерация Verilog с улучшенными возможностями логического вывода
CodeV-R1: Reasoning-Enhanced Verilog Generation
May 30, 2025
Авторы: Yaoyu Zhu, Di Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen
cs.AI
Аннотация
Крупные языковые модели (LLM), обученные с использованием обучения с подкреплением с верифицируемой наградой (RLVR), достигли прорывов в задачах с явной и автоматизируемой проверкой, таких как программирование и решение математических задач. Однако применение RLVR в автоматизации проектирования электроники (EDA), в частности для автоматической генерации языков описания аппаратуры (HDL), таких как Verilog, из спецификаций на естественном языке (NL), сталкивается с тремя ключевыми проблемами: отсутствие автоматизированных и точных сред верификации, недостаток высококачественных пар NL-код и высокая вычислительная стоимость RLVR. В связи с этим мы представляем CodeV-R1 — фреймворк RLVR для обучения LLM, генерирующих Verilog. Во-первых, мы разработали генератор тестовых стендов на основе правил, который выполняет надежную проверку эквивалентности по сравнению с эталонными образцами. Во-вторых, мы предлагаем метод синтеза данных с обратной связью, который связывает фрагменты Verilog из открытых источников с NL-описаниями, сгенерированными LLM, проверяет согласованность код-NL-код с помощью созданного тестового стенда и отфильтровывает неэквивалентные примеры для получения высококачественного набора данных. В-третьих, мы используем двухэтапный конвейер обучения "дистилляция, затем RL": дистилляция для начального развития способностей к рассуждению, за которой следует адаптивный DAPO — наш новый алгоритм RLVR, который может снизить стоимость обучения за счет адаптивной регулировки частоты выборки. Полученная модель, CodeV-R1-7B, достигает 68,6% и 72,9% pass@1 на VerilogEval v2 и RTLLM v1.1 соответственно, превосходя предыдущие передовые результаты на 12~20%, при этом соответствуя или даже превышая производительность 671B DeepSeek-R1. Мы опубликуем нашу модель, конвейер обучения и набор данных для содействия исследованиям в сообществах EDA и LLM.
English
Large language models (LLMs) trained via reinforcement learning with
verifiable reward (RLVR) have achieved breakthroughs on tasks with explicit,
automatable verification, such as software programming and mathematical
problems. Extending RLVR to electronic design automation (EDA), especially
automatically generating hardware description languages (HDLs) like Verilog
from natural-language (NL) specifications, however, poses three key challenges:
the lack of automated and accurate verification environments, the scarcity of
high-quality NL-code pairs, and the prohibitive computation cost of RLVR. To
this end, we introduce CodeV-R1, an RLVR framework for training Verilog
generation LLMs. First, we develop a rule-based testbench generator that
performs robust equivalence checking against golden references. Second, we
propose a round-trip data synthesis method that pairs open-source Verilog
snippets with LLM-generated NL descriptions, verifies code-NL-code consistency
via the generated testbench, and filters out inequivalent examples to yield a
high-quality dataset. Third, we employ a two-stage "distill-then-RL" training
pipeline: distillation for the cold start of reasoning abilities, followed by
adaptive DAPO, our novel RLVR algorithm that can reduce training cost by
adaptively adjusting sampling rate. The resulting model, CodeV-R1-7B, achieves
68.6% and 72.9% pass@1 on VerilogEval v2 and RTLLM v1.1, respectively,
surpassing prior state-of-the-art by 12~20%, while matching or even exceeding
the performance of 671B DeepSeek-R1. We will release our model, training
pipeline, and dataset to facilitate research in EDA and LLM communities.