GitChameleon: Evaluatie van AI-codegeneratie tegen Python-bibliotheek Versie-incompatibiliteiten
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
July 16, 2025
Auteurs: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI
Samenvatting
De snelle evolutie van softwarebibliotheken vormt een aanzienlijke uitdaging voor codegeneratie, wat continue aanpassing vereist aan frequente versie-updates terwijl achterwaartse compatibiliteit behouden blijft. Hoewel bestaande benchmarks voor code-evolutie waardevolle inzichten bieden, ontbreekt het hen doorgaans aan uitvoeringsgebaseerde evaluatie voor het genereren van code die voldoet aan specifieke bibliotheekversies. Om dit aan te pakken, introduceren we GitChameleon, een nieuw, zorgvuldig samengesteld dataset bestaande uit 328 Python-codecompleteringsproblemen, elk afgestemd op specifieke bibliotheekversies en vergezeld van uitvoerbare unittests. GitChameleon evalueert grondig het vermogen van hedendaagse grote taalmodellen (LLMs), LLM-aangedreven agents, code-assistenten en RAG-systemen om versie-geconditioneerde codegeneratie uit te voeren die functionele nauwkeurigheid aantoont door uitvoering. Onze uitgebreide evaluaties tonen aan dat state-of-the-art systemen aanzienlijke uitdagingen ondervinden bij deze taak; bedrijfsmodellen behalen basislijnsuccespercentages in het bereik van 48-51\%, wat de complexiteit van het probleem onderstreept. Door een uitvoeringsgebaseerde benchmark aan te bieden die de dynamische aard van codebibliotheken benadrukt, stelt GitChameleon een duidelijker begrip van deze uitdaging mogelijk en helpt het bij het ontwikkelen van meer aanpasbare en betrouwbare AI-codegeneratiemethoden. We maken de dataset en evaluatiecode publiekelijk beschikbaar op https://github.com/mrcabbage972/GitChameleonBenchmark.
English
The rapid evolution of software libraries poses a considerable hurdle for
code generation, necessitating continuous adaptation to frequent version
updates while preserving backward compatibility. While existing code evolution
benchmarks provide valuable insights, they typically lack execution-based
evaluation for generating code compliant with specific library versions. To
address this, we introduce GitChameleon, a novel, meticulously curated dataset
comprising 328 Python code completion problems, each conditioned on specific
library versions and accompanied by executable unit tests. GitChameleon
rigorously evaluates the capacity of contemporary large language models (LLMs),
LLM-powered agents, code assistants, and RAG systems to perform
version-conditioned code generation that demonstrates functional accuracy
through execution. Our extensive evaluations indicate that state-of-the-art
systems encounter significant challenges with this task; enterprise models
achieving baseline success rates in the 48-51\% range, underscoring the
intricacy of the problem. By offering an execution-based benchmark emphasizing
the dynamic nature of code libraries, GitChameleon enables a clearer
understanding of this challenge and helps guide the development of more
adaptable and dependable AI code generation methods. We make the dataset and
evaluation code publicly available at
https://github.com/mrcabbage972/GitChameleonBenchmark.