ChipNeMo: Специализированные языковые модели для проектирования микросхем
ChipNeMo: Domain-Adapted LLMs for Chip Design
October 31, 2023
Авторы: Mingjie Liu, Teo Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Brucek Khailany, Kishor Kunal, Xiaowei Li, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Kaizhe Xu, Haoxing Ren
cs.AI
Аннотация
ChipNeMo ставит своей целью исследование применения больших языковых моделей (LLM) в промышленном проектировании микросхем. Вместо прямого использования готовых коммерческих или открытых LLM мы применяем следующие методы адаптации к предметной области: специализированные токенизаторы, продолженное предобучение с адаптацией к домену, тонкую настройку с учителем (SFT) с использованием инструкций, специфичных для домена, и модели поиска, адаптированные к предметной области. Мы оцениваем эти методы на трех выбранных приложениях LLM для проектирования микросхем: чат-бот инженерного помощника, генерация скриптов для САПР, а также суммирование и анализ ошибок. Наши результаты показывают, что эти методы адаптации к домену позволяют значительно улучшить производительность LLM по сравнению с базовыми моделями общего назначения во всех трех оцениваемых приложениях, что позволяет сократить размер модели до 5 раз при сохранении или улучшении производительности на ряде задач проектирования. Наши выводы также указывают на то, что между текущими результатами и идеальными показателями все еще остается пространство для улучшения. Мы считаем, что дальнейшее исследование подходов к адаптации LLM к предметной области поможет сократить этот разрыв в будущем.
English
ChipNeMo aims to explore the applications of large language models (LLMs) for
industrial chip design. Instead of directly deploying off-the-shelf commercial
or open-source LLMs, we instead adopt the following domain adaptation
techniques: custom tokenizers, domain-adaptive continued pretraining,
supervised fine-tuning (SFT) with domain-specific instructions, and
domain-adapted retrieval models. We evaluate these methods on three selected
LLM applications for chip design: an engineering assistant chatbot, EDA script
generation, and bug summarization and analysis. Our results show that these
domain adaptation techniques enable significant LLM performance improvements
over general-purpose base models across the three evaluated applications,
enabling up to 5x model size reduction with similar or better performance on a
range of design tasks. Our findings also indicate that there's still room for
improvement between our current results and ideal outcomes. We believe that
further investigation of domain-adapted LLM approaches will help close this gap
in the future.