ChatPaper.aiChatPaper

GitChameleon: Pythonライブラリのバージョン非互換性に対するAIコード生成の評価

GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities

July 16, 2025
著者: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI

要旨

ソフトウェアライブラリの急速な進化は、コード生成において大きな障壁となっており、頻繁なバージョン更新に継続的に適応しながら、後方互換性を維持する必要があります。既存のコード進化ベンチマークは貴重な洞察を提供しますが、特定のライブラリバージョンに準拠したコード生成のための実行ベースの評価を欠いていることが一般的です。この問題に対処するため、私たちはGitChameleonを紹介します。これは、特定のライブラリバージョンに条件付けされた328のPythonコード補完問題から成る、注意深くキュレーションされた新しいデータセットであり、各問題には実行可能なユニットテストが付属しています。GitChameleonは、現代の大規模言語モデル(LLMs)、LLMを活用したエージェント、コードアシスタント、およびRAGシステムが、実行を通じて機能的な正確性を示すバージョン条件付きコード生成を行う能力を厳密に評価します。私たちの広範な評価は、最先端のシステムがこのタスクに大きな課題を抱えていることを示しています。企業モデルは48-51%の範囲でベースラインの成功率を達成しており、この問題の複雑さを浮き彫りにしています。コードライブラリの動的な性質を強調する実行ベースのベンチマークを提供することで、GitChameleonはこの課題をより明確に理解し、より適応性があり信頼性の高いAIコード生成手法の開発を導くのに役立ちます。データセットと評価コードは、https://github.com/mrcabbage972/GitChameleonBenchmark で公開されています。
English
The rapid evolution of software libraries poses a considerable hurdle for code generation, necessitating continuous adaptation to frequent version updates while preserving backward compatibility. While existing code evolution benchmarks provide valuable insights, they typically lack execution-based evaluation for generating code compliant with specific library versions. To address this, we introduce GitChameleon, a novel, meticulously curated dataset comprising 328 Python code completion problems, each conditioned on specific library versions and accompanied by executable unit tests. GitChameleon rigorously evaluates the capacity of contemporary large language models (LLMs), LLM-powered agents, code assistants, and RAG systems to perform version-conditioned code generation that demonstrates functional accuracy through execution. Our extensive evaluations indicate that state-of-the-art systems encounter significant challenges with this task; enterprise models achieving baseline success rates in the 48-51\% range, underscoring the intricacy of the problem. By offering an execution-based benchmark emphasizing the dynamic nature of code libraries, GitChameleon enables a clearer understanding of this challenge and helps guide the development of more adaptable and dependable AI code generation methods. We make the dataset and evaluation code publicly available at https://github.com/mrcabbage972/GitChameleonBenchmark.
PDF01July 18, 2025