LONGCODEU: Bewertung von Sprachmodellen mit langem Kontext beim Verständnis von langem Code

papers.abstract

Aktuelle fortschrittliche Sprachmodelle mit langem Kontext bieten großes Potenzial für reale Softwareentwicklungsanwendungen. Dennoch wird der Fortschritt in diesem kritischen Bereich durch eine grundlegende Einschränkung behindert: das Fehlen eines rigorosen Bewertungsrahmens für das Verständnis von langem Code. Um diese Hürde zu überwinden, schlagen wir einen Benchmark für das Verständnis von langem Code, LONGCODEU, aus vier Perspektiven (8 Aufgaben) vor, um die Fähigkeit von LCLMs (Language Models with Long Context) zum Verständnis von langem Code, wie sie für praktische Anwendungen erforderlich ist, zu bewerten. Dies umfasst die Wahrnehmung von Code-Einheiten, das Verständnis innerhalb von Code-Einheiten, das Verständnis von Beziehungen zwischen Code-Einheiten und das Verständnis von langen Code-Dokumentationen. Wir bewerten 9 populäre LCLMs auf LONGCODEU (d.h., 6 allgemeine Modelle und 3 Code-Modelle). Unsere experimentellen Ergebnisse zeigen wesentliche Einschränkungen in den Fähigkeiten aktueller LCLMs zum Verständnis von langem Code auf. Insbesondere sinkt die Leistung von LCLMs dramatisch, wenn die Länge des langen Codes 32K überschreitet, und bleibt weit hinter ihren behaupteten Kontextfenstern von 128K-1M zurück. Unter den vier Perspektiven stellt das Verständnis von Beziehungen zwischen Code-Einheiten die größte Herausforderung für LCLMs dar. Unsere Studie liefert wertvolle Erkenntnisse für die Optimierung von LCLMs und treibt Fortschritte in der Softwareentwicklung voran.

English

Current advanced long-context language models offer great potential for real-world software engineering applications. However, progress in this critical domain remains hampered by a fundamental limitation: the absence of a rigorous evaluation framework for long code understanding. To gap this obstacle, we propose a long code understanding benchmark LONGCODEU from four aspects (8 tasks) to evaluate LCLMs' long code understanding ability required for practical applications, including code unit perception, intra-code unit understanding, inter-code unit relation understanding, and long code documentation understanding. We evaluate 9 popular LCLMs on LONGCODEU (i.e., 6 general models and 3 code models). Our experimental results reveal key limitations in current LCLMs' capabilities for long code understanding. Particularly, the performance of LCLMs drops dramatically when the long code length is greater than 32K, falling far short of their claimed 128K-1M context windows. In the four aspects, inter-code unit relation understanding is the most challenging for LCLMs. Our study provides valuable insights for optimizing LCLMs and driving advancements in software engineering.

LONGCODEU: Bewertung von Sprachmodellen mit langem Kontext beim Verständnis von langem Code

LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding

papers.abstract

Support