LONGCODEU: Het benchmarken van taalmodellen met lange context op het begrijpen van lange code
LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding
March 6, 2025
Auteurs: Jia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin
cs.AI
Samenvatting
Huidige geavanceerde taalmodellen met lange context bieden groot potentieel voor
real-world software engineering toepassingen. Echter wordt de vooruitgang in dit
kritieke domein nog steeds belemmerd door een fundamentele beperking: het ontbreken van een
rigoureus evaluatiekader voor het begrijpen van lange code. Om deze hindernis te overbruggen,
stellen we een benchmark voor lang codebegrip voor, LONGCODEU, vanuit vier aspecten (8 taken)
om het vermogen van LCLMs (Language Models with Long Context) om lange code te begrijpen, te evalueren,
zoals vereist voor praktische toepassingen, waaronder code-eenheid perceptie, begrip binnen code-eenheden,
begrip van relaties tussen code-eenheden, en begrip van lange code documentatie. We evalueren 9 populaire
LCLMs op LONGCODEU (d.w.z. 6 algemene modellen en 3 code modellen). Onze experimentele resultaten onthullen
belangrijke beperkingen in de huidige mogelijkheden van LCLMs voor het begrijpen van lange code. Met name
daalt de prestaties van LCLMs dramatisch wanneer de lengte van de lange code groter is dan 32K, wat ver
onder hun geclaimde contextvensters van 128K-1M blijft. Van de vier aspecten is het begrijpen van relaties
tussen code-eenheden het meest uitdagend voor LCLMs. Onze studie biedt waardevolle inzichten voor het
optimaliseren van LCLMs en het bevorderen van vooruitgang in software engineering.
English
Current advanced long-context language models offer great potential for
real-world software engineering applications. However, progress in this
critical domain remains hampered by a fundamental limitation: the absence of a
rigorous evaluation framework for long code understanding. To gap this
obstacle, we propose a long code understanding benchmark LONGCODEU from four
aspects (8 tasks) to evaluate LCLMs' long code understanding ability required
for practical applications, including code unit perception, intra-code unit
understanding, inter-code unit relation understanding, and long code
documentation understanding. We evaluate 9 popular LCLMs on LONGCODEU (i.e., 6
general models and 3 code models). Our experimental results reveal key
limitations in current LCLMs' capabilities for long code understanding.
Particularly, the performance of LCLMs drops dramatically when the long code
length is greater than 32K, falling far short of their claimed 128K-1M context
windows. In the four aspects, inter-code unit relation understanding is the
most challenging for LCLMs. Our study provides valuable insights for optimizing
LCLMs and driving advancements in software engineering.Summary
AI-Generated Summary