ChatPaper.aiChatPaper

LONGCODEU: Het benchmarken van taalmodellen met lange context op het begrijpen van lange code

LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding

March 6, 2025
Auteurs: Jia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin
cs.AI

Samenvatting

Huidige geavanceerde taalmodellen met lange context bieden groot potentieel voor real-world software engineering toepassingen. Echter wordt de vooruitgang in dit kritieke domein nog steeds belemmerd door een fundamentele beperking: het ontbreken van een rigoureus evaluatiekader voor het begrijpen van lange code. Om deze hindernis te overbruggen, stellen we een benchmark voor lang codebegrip voor, LONGCODEU, vanuit vier aspecten (8 taken) om het vermogen van LCLMs (Language Models with Long Context) om lange code te begrijpen, te evalueren, zoals vereist voor praktische toepassingen, waaronder code-eenheid perceptie, begrip binnen code-eenheden, begrip van relaties tussen code-eenheden, en begrip van lange code documentatie. We evalueren 9 populaire LCLMs op LONGCODEU (d.w.z. 6 algemene modellen en 3 code modellen). Onze experimentele resultaten onthullen belangrijke beperkingen in de huidige mogelijkheden van LCLMs voor het begrijpen van lange code. Met name daalt de prestaties van LCLMs dramatisch wanneer de lengte van de lange code groter is dan 32K, wat ver onder hun geclaimde contextvensters van 128K-1M blijft. Van de vier aspecten is het begrijpen van relaties tussen code-eenheden het meest uitdagend voor LCLMs. Onze studie biedt waardevolle inzichten voor het optimaliseren van LCLMs en het bevorderen van vooruitgang in software engineering.
English
Current advanced long-context language models offer great potential for real-world software engineering applications. However, progress in this critical domain remains hampered by a fundamental limitation: the absence of a rigorous evaluation framework for long code understanding. To gap this obstacle, we propose a long code understanding benchmark LONGCODEU from four aspects (8 tasks) to evaluate LCLMs' long code understanding ability required for practical applications, including code unit perception, intra-code unit understanding, inter-code unit relation understanding, and long code documentation understanding. We evaluate 9 popular LCLMs on LONGCODEU (i.e., 6 general models and 3 code models). Our experimental results reveal key limitations in current LCLMs' capabilities for long code understanding. Particularly, the performance of LCLMs drops dramatically when the long code length is greater than 32K, falling far short of their claimed 128K-1M context windows. In the four aspects, inter-code unit relation understanding is the most challenging for LCLMs. Our study provides valuable insights for optimizing LCLMs and driving advancements in software engineering.

Summary

AI-Generated Summary

PDF62March 10, 2025