GitChameleon : Évaluation de la génération de code par IA face aux incompatibilités de versions des bibliothèques Python
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
July 16, 2025
papers.authors: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI
papers.abstract
L'évolution rapide des bibliothèques logicielles constitue un défi majeur pour la génération de code, nécessitant une adaptation continue aux mises à jour fréquentes tout en préservant la compatibilité ascendante. Bien que les benchmarks existants sur l'évolution du code fournissent des informations précieuses, ils manquent généralement d'évaluation basée sur l'exécution pour générer du code conforme à des versions spécifiques de bibliothèques. Pour remédier à cela, nous présentons GitChameleon, un nouveau jeu de données méticuleusement constitué comprenant 328 problèmes de complétion de code Python, chacun conditionné à des versions spécifiques de bibliothèques et accompagné de tests unitaires exécutables. GitChameleon évalue rigoureusement la capacité des modèles de langage de grande taille (LLM) contemporains, des agents alimentés par des LLM, des assistants de code et des systèmes RAG à effectuer une génération de code conditionnée par la version, démontrant une précision fonctionnelle par l'exécution. Nos évaluations approfondies indiquent que les systèmes de pointe rencontrent des difficultés significatives dans cette tâche ; les modèles d'entreprise atteignant des taux de réussite de base dans la plage de 48 à 51 %, soulignant la complexité du problème. En proposant un benchmark basé sur l'exécution mettant l'accent sur la nature dynamique des bibliothèques de code, GitChameleon permet une compréhension plus claire de ce défi et aide à orienter le développement de méthodes de génération de code IA plus adaptables et fiables. Nous mettons le jeu de données et le code d'évaluation à disposition du public à l'adresse suivante : https://github.com/mrcabbage972/GitChameleonBenchmark.
English
The rapid evolution of software libraries poses a considerable hurdle for
code generation, necessitating continuous adaptation to frequent version
updates while preserving backward compatibility. While existing code evolution
benchmarks provide valuable insights, they typically lack execution-based
evaluation for generating code compliant with specific library versions. To
address this, we introduce GitChameleon, a novel, meticulously curated dataset
comprising 328 Python code completion problems, each conditioned on specific
library versions and accompanied by executable unit tests. GitChameleon
rigorously evaluates the capacity of contemporary large language models (LLMs),
LLM-powered agents, code assistants, and RAG systems to perform
version-conditioned code generation that demonstrates functional accuracy
through execution. Our extensive evaluations indicate that state-of-the-art
systems encounter significant challenges with this task; enterprise models
achieving baseline success rates in the 48-51\% range, underscoring the
intricacy of the problem. By offering an execution-based benchmark emphasizing
the dynamic nature of code libraries, GitChameleon enables a clearer
understanding of this challenge and helps guide the development of more
adaptable and dependable AI code generation methods. We make the dataset and
evaluation code publicly available at
https://github.com/mrcabbage972/GitChameleonBenchmark.