ChatPaper.aiChatPaper

Een Overzicht van Taalmodellen voor Code

A Survey on Language Models for Code

November 14, 2023
Auteurs: Ziyin Zhang, Chaoyu Chen, Bingchang Liu, Cong Liao, Zi Gong, Hang Yu, Jianguo Li, Rui Wang
cs.AI

Samenvatting

In dit werk geven we een systematisch overzicht van de recente ontwikkelingen in codeprocessing met taalmodelen, waarbij we meer dan 50 modellen, 30+ evaluatietaken en 500 gerelateerde werken behandelen. We verdelen codeprocessingmodellen in algemene taalmodelen, vertegenwoordigd door de GPT-familie, en gespecialiseerde modellen die specifiek zijn voorgetraind op code, vaak met aangepaste doelen. We bespreken de relaties en verschillen tussen deze modellen en belichten de historische overgang van codemodellering van statistische modellen en RNN's naar voorgetrainde Transformers en LLM's, wat precies dezelfde weg is die NLP heeft afgelegd. We bespreken ook codespecifieke kenmerken zoals AST, CFG en unittests, evenals hun toepassing in het trainen van codetaalmodelen, en identificeren belangrijke uitdagingen en mogelijke toekomstige richtingen in dit domein. We houden het overzicht open en up-to-date in een GitHub-repository op https://github.com/codefuse-ai/Awesome-Code-LLM.
English
In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.
PDF260December 15, 2024