GitChameleon: Bewertung der KI-Codegenerierung im Hinblick auf Python-Bibliotheksversionsinkompatibilitäten
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
July 16, 2025
papers.authors: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI
papers.abstract
Die rasche Entwicklung von Softwarebibliotheken stellt eine erhebliche Herausforderung für die Codegenerierung dar, da eine kontinuierliche Anpassung an häufige Versionsaktualisierungen bei gleichzeitiger Wahrung der Abwärtskompatibilität erforderlich ist. Obwohl bestehende Benchmarks zur Codeevolution wertvolle Einblicke bieten, fehlt ihnen in der Regel eine ausführungsbasierte Bewertung für die Generierung von Code, der mit spezifischen Bibliotheksversionen kompatibel ist. Um dies zu adressieren, stellen wir GitChameleon vor, einen neuartigen, sorgfältig kuratierten Datensatz, der 328 Python-Code-Vervollständigungsprobleme umfasst, die jeweils auf bestimmte Bibliotheksversionen konditioniert sind und von ausführbaren Unit-Tests begleitet werden. GitChameleon bewertet rigoros die Fähigkeit zeitgenössischer großer Sprachmodelle (LLMs), LLM-basierter Agenten, Code-Assistenten und RAG-Systeme, versionskonditionierte Codegenerierung durchzuführen, die durch Ausführung funktionale Genauigkeit demonstriert. Unsere umfangreichen Auswertungen zeigen, dass state-of-the-art-Systeme erhebliche Schwierigkeiten mit dieser Aufgabe haben; Unternehmensmodelle erreichen Basis-Erfolgsquoten im Bereich von 48-51\%, was die Komplexität des Problems unterstreicht. Durch die Bereitstellung eines ausführungsbasierten Benchmarks, der die dynamische Natur von Codebibliotheken betont, ermöglicht GitChameleon ein klareres Verständnis dieser Herausforderung und hilft bei der Entwicklung anpassungsfähigerer und zuverlässigerer KI-Methoden zur Codegenerierung. Wir stellen den Datensatz und den Evaluationscode öffentlich unter https://github.com/mrcabbage972/GitChameleonBenchmark zur Verfügung.
English
The rapid evolution of software libraries poses a considerable hurdle for
code generation, necessitating continuous adaptation to frequent version
updates while preserving backward compatibility. While existing code evolution
benchmarks provide valuable insights, they typically lack execution-based
evaluation for generating code compliant with specific library versions. To
address this, we introduce GitChameleon, a novel, meticulously curated dataset
comprising 328 Python code completion problems, each conditioned on specific
library versions and accompanied by executable unit tests. GitChameleon
rigorously evaluates the capacity of contemporary large language models (LLMs),
LLM-powered agents, code assistants, and RAG systems to perform
version-conditioned code generation that demonstrates functional accuracy
through execution. Our extensive evaluations indicate that state-of-the-art
systems encounter significant challenges with this task; enterprise models
achieving baseline success rates in the 48-51\% range, underscoring the
intricacy of the problem. By offering an execution-based benchmark emphasizing
the dynamic nature of code libraries, GitChameleon enables a clearer
understanding of this challenge and helps guide the development of more
adaptable and dependable AI code generation methods. We make the dataset and
evaluation code publicly available at
https://github.com/mrcabbage972/GitChameleonBenchmark.