CODESYNC: 大規模言語モデルと動的コード進化のスケーラブルな同期
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale
February 23, 2025
著者: Chenlong Wang, Zhaoyang Chu, Zhengxiang Cheng, Xuyi Yang, Kaiyue Qiu, Yao Wan, Zhou Zhao, Xuanhua Shi, Dongping Chen
cs.AI
要旨
大規模言語モデル(LLMs)はソフトウェア工学において卓越した性能を発揮しているものの、特にサードパーティライブラリのAPIが頻繁に更新される状況において、継続的に進化するコード知識に適応する際に課題に直面しています。この制約は、静的な事前学習データセットに起因しており、実行不可能なコードや安全性と効率性に劣る実装を生み出すことが少なくありません。この問題に対処するため、本論文ではCODESYNCを提案します。CODESYNCは、古くなったコードパターンを特定し、Pythonサードパーティライブラリからのリアルタイムなコード知識の更新を収集するデータエンジンです。CODESYNCを基盤として、コードの進化に同期するLLMsの能力を評価する包括的なベンチマークであるCODESYNCBENCHを開発しました。このベンチマークは、6つのPythonライブラリに含まれる220のAPIに対する現実世界の更新をカバーし、3つの評価タスクにわたる3,300のテストケースと、2,200のトレーニングサンプルからなる更新を意識した指示チューニングデータセットを提供します。14の最先端LLMsを用いた広範な実験により、動的なコード進化に対応する際に、高度な知識更新手法(例:DPO、ORPO、SimPO)のサポートがあっても困難を抱えていることが明らかになりました。我々は、このベンチマークが将来のリアルタイムコード知識更新のためのより効果的な手法の開発に強固な基盤を提供できると信じています。実験用のコードとデータセットは、https://github.com/Lucky-voyage/Code-Sync で公開されています。
English
Large Language Models (LLMs) have exhibited exceptional performance in
software engineering yet face challenges in adapting to continually evolving
code knowledge, particularly regarding the frequent updates of third-party
library APIs. This limitation, stemming from static pre-training datasets,
often results in non-executable code or implementations with suboptimal safety
and efficiency. To this end, this paper introduces CODESYNC, a data engine for
identifying outdated code patterns and collecting real-time code knowledge
updates from Python third-party libraries. Building upon CODESYNC, we develop
CODESYNCBENCH, a comprehensive benchmark for assessing LLMs' ability to stay
synchronized with code evolution, which covers real-world updates for 220 APIs
from six Python libraries. Our benchmark offers 3,300 test cases across three
evaluation tasks and an update-aware instruction tuning dataset consisting of
2,200 training samples. Extensive experiments on 14 state-of-the-art LLMs
reveal that they struggle with dynamic code evolution, even with the support of
advanced knowledge updating methods (e.g., DPO, ORPO, and SimPO). We believe
that our benchmark can offer a strong foundation for the development of more
effective methods for real-time code knowledge updating in the future. The
experimental code and dataset are publicly available at:
https://github.com/Lucky-voyage/Code-Sync.Summary
AI-Generated Summary