LONGCODEU: 長文コード理解における長文脈言語モデルのベンチマーキング
LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding
March 6, 2025
著者: Jia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin
cs.AI
要旨
現在の高度な長文脈言語モデルは、実世界のソフトウェア工学アプリケーションにおいて大きな可能性を提供しています。しかし、この重要な領域における進展は、根本的な制限によって妨げられています。それは、長いコード理解のための厳密な評価フレームワークの欠如です。この障壁を埋めるため、我々は実用的なアプリケーションに必要な長いコード理解能力を評価するために、4つの側面(8つのタスク)からなる長いコード理解ベンチマークLONGCODEUを提案します。これには、コードユニットの認識、コードユニット内の理解、コードユニット間の関係理解、および長いコードのドキュメント理解が含まれます。我々は、LONGCODEUにおいて9つの人気のある長文脈言語モデル(すなわち、6つの一般モデルと3つのコードモデル)を評価しました。実験結果は、現在の長文脈言語モデルの長いコード理解能力における重要な限界を明らかにしています。特に、長いコードの長さが32Kを超えると、長文脈言語モデルの性能は劇的に低下し、彼らが主張する128K-1Mのコンテキストウィンドウには遠く及びません。4つの側面の中で、コードユニット間の関係理解は長文脈言語モデルにとって最も困難な課題です。我々の研究は、長文脈言語モデルの最適化とソフトウェア工学の進展を促進するための貴重な洞察を提供します。
English
Current advanced long-context language models offer great potential for
real-world software engineering applications. However, progress in this
critical domain remains hampered by a fundamental limitation: the absence of a
rigorous evaluation framework for long code understanding. To gap this
obstacle, we propose a long code understanding benchmark LONGCODEU from four
aspects (8 tasks) to evaluate LCLMs' long code understanding ability required
for practical applications, including code unit perception, intra-code unit
understanding, inter-code unit relation understanding, and long code
documentation understanding. We evaluate 9 popular LCLMs on LONGCODEU (i.e., 6
general models and 3 code models). Our experimental results reveal key
limitations in current LCLMs' capabilities for long code understanding.
Particularly, the performance of LCLMs drops dramatically when the long code
length is greater than 32K, falling far short of their claimed 128K-1M context
windows. In the four aspects, inter-code unit relation understanding is the
most challenging for LCLMs. Our study provides valuable insights for optimizing
LCLMs and driving advancements in software engineering.Summary
AI-Generated Summary