GitChameleon: Avaliando a Geração de Código por IA em Relação a Incompatibilidades de Versão em Bibliotecas Python
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
July 16, 2025
Autores: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI
Resumo
A rápida evolução das bibliotecas de software representa um desafio considerável para a geração de código, exigindo adaptação contínua às atualizações frequentes de versões, ao mesmo tempo em que se preserva a compatibilidade com versões anteriores. Embora os benchmarks existentes de evolução de código ofereçam insights valiosos, eles geralmente carecem de avaliação baseada em execução para a geração de código compatível com versões específicas de bibliotecas. Para abordar essa lacuna, apresentamos o GitChameleon, um novo conjunto de dados meticulosamente curado, composto por 328 problemas de conclusão de código em Python, cada um condicionado a versões específicas de bibliotecas e acompanhado por testes unitários executáveis. O GitChameleon avalia rigorosamente a capacidade dos modelos de linguagem de grande escala (LLMs) contemporâneos, agentes alimentados por LLMs, assistentes de código e sistemas RAG de realizar geração de código condicionada por versão que demonstra precisão funcional por meio da execução. Nossas extensivas avaliações indicam que os sistemas de ponta enfrentam desafios significativos nessa tarefa; modelos empresariais alcançam taxas de sucesso basais na faixa de 48-51\%, destacando a complexidade do problema. Ao oferecer um benchmark baseado em execução que enfatiza a natureza dinâmica das bibliotecas de código, o GitChameleon possibilita uma compreensão mais clara desse desafio e ajuda a orientar o desenvolvimento de métodos de geração de código por IA mais adaptáveis e confiáveis. Disponibilizamos publicamente o conjunto de dados e o código de avaliação em https://github.com/mrcabbage972/GitChameleonBenchmark.
English
The rapid evolution of software libraries poses a considerable hurdle for
code generation, necessitating continuous adaptation to frequent version
updates while preserving backward compatibility. While existing code evolution
benchmarks provide valuable insights, they typically lack execution-based
evaluation for generating code compliant with specific library versions. To
address this, we introduce GitChameleon, a novel, meticulously curated dataset
comprising 328 Python code completion problems, each conditioned on specific
library versions and accompanied by executable unit tests. GitChameleon
rigorously evaluates the capacity of contemporary large language models (LLMs),
LLM-powered agents, code assistants, and RAG systems to perform
version-conditioned code generation that demonstrates functional accuracy
through execution. Our extensive evaluations indicate that state-of-the-art
systems encounter significant challenges with this task; enterprise models
achieving baseline success rates in the 48-51\% range, underscoring the
intricacy of the problem. By offering an execution-based benchmark emphasizing
the dynamic nature of code libraries, GitChameleon enables a clearer
understanding of this challenge and helps guide the development of more
adaptable and dependable AI code generation methods. We make the dataset and
evaluation code publicly available at
https://github.com/mrcabbage972/GitChameleonBenchmark.