ChatPaper.aiChatPaper

GitChameleon: 파이썬 라이브러리 버전 비호환성에 대한 AI 코드 생성 평가

GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities

July 16, 2025
저자: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI

초록

소프트웨어 라이브러리의 급속한 발전은 코드 생성에 상당한 장벽으로 작용하며, 빈번한 버전 업데이트에 대한 지속적인 적응과 이전 버전과의 호환성 유지를 필요로 합니다. 기존의 코드 진화 벤치마크는 유용한 통찰을 제공하지만, 특정 라이브러리 버전에 부합하는 코드 생성을 위한 실행 기반 평가가 일반적으로 부족합니다. 이를 해결하기 위해, 우리는 GitChameleon이라는 새로운 데이터셋을 소개합니다. 이 데이터셋은 특정 라이브러리 버전에 맞춰진 328개의 Python 코드 완성 문제로 구성되어 있으며, 각 문제는 실행 가능한 단위 테스트와 함께 제공됩니다. GitChameleon은 최신 대규모 언어 모델(LLM), LLM 기반 에이전트, 코드 보조 도구, 그리고 RAG 시스템이 실행을 통해 기능적 정확성을 입증하는 버전 조건부 코드 생성 능력을 엄격히 평가합니다. 우리의 광범위한 평가 결과, 최첨단 시스템들도 이 작업에 상당한 어려움을 겪는 것으로 나타났으며, 기업용 모델들의 기본 성공률이 48-51% 범위에 머무르는 것으로 확인되어 이 문제의 복잡성을 강조합니다. 코드 라이브러리의 동적 특성을 강조하는 실행 기반 벤치마크를 제공함으로써, GitChameleon은 이 문제에 대한 명확한 이해를 가능하게 하고, 더 적응력 있고 신뢰할 수 있는 AI 코드 생성 방법의 개발을 돕습니다. 우리는 이 데이터셋과 평가 코드를 https://github.com/mrcabbage972/GitChameleonBenchmark에서 공개적으로 제공합니다.
English
The rapid evolution of software libraries poses a considerable hurdle for code generation, necessitating continuous adaptation to frequent version updates while preserving backward compatibility. While existing code evolution benchmarks provide valuable insights, they typically lack execution-based evaluation for generating code compliant with specific library versions. To address this, we introduce GitChameleon, a novel, meticulously curated dataset comprising 328 Python code completion problems, each conditioned on specific library versions and accompanied by executable unit tests. GitChameleon rigorously evaluates the capacity of contemporary large language models (LLMs), LLM-powered agents, code assistants, and RAG systems to perform version-conditioned code generation that demonstrates functional accuracy through execution. Our extensive evaluations indicate that state-of-the-art systems encounter significant challenges with this task; enterprise models achieving baseline success rates in the 48-51\% range, underscoring the intricacy of the problem. By offering an execution-based benchmark emphasizing the dynamic nature of code libraries, GitChameleon enables a clearer understanding of this challenge and helps guide the development of more adaptable and dependable AI code generation methods. We make the dataset and evaluation code publicly available at https://github.com/mrcabbage972/GitChameleonBenchmark.
PDF01July 18, 2025