GitChameleon: Оценка генерации кода ИИ с учетом несовместимости версий библиотек Python
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
July 16, 2025
Авторы: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
cs.AI
Аннотация
Быстрая эволюция программных библиотек представляет собой значительное препятствие для генерации кода, требуя постоянной адаптации к частым обновлениям версий при сохранении обратной совместимости. Хотя существующие бенчмарки эволюции кода предоставляют ценные данные, они обычно не включают оценку на основе выполнения для генерации кода, соответствующего конкретным версиям библиотек. Для решения этой проблемы мы представляем GitChameleon — новый тщательно отобранный набор данных, содержащий 328 задач на завершение кода на Python, каждая из которых привязана к конкретным версиям библиотек и сопровождается исполняемыми модульными тестами. GitChameleon строго оценивает способность современных больших языковых моделей (LLM), агентов на основе LLM, помощников по коду и систем RAG выполнять генерацию кода, зависящую от версии, с демонстрацией функциональной точности через выполнение. Наши обширные оценки показывают, что современные системы сталкиваются с серьезными трудностями при решении этой задачи; корпоративные модели достигают базовых показателей успешности в диапазоне 48–51\%, что подчеркивает сложность проблемы. Предлагая бенчмарк на основе выполнения, акцентирующий внимание на динамической природе библиотек кода, GitChameleon позволяет лучше понять эту задачу и способствует разработке более адаптируемых и надежных методов генерации кода с использованием ИИ. Мы делаем набор данных и код для оценки общедоступными по адресу https://github.com/mrcabbage972/GitChameleonBenchmark.
English
The rapid evolution of software libraries poses a considerable hurdle for
code generation, necessitating continuous adaptation to frequent version
updates while preserving backward compatibility. While existing code evolution
benchmarks provide valuable insights, they typically lack execution-based
evaluation for generating code compliant with specific library versions. To
address this, we introduce GitChameleon, a novel, meticulously curated dataset
comprising 328 Python code completion problems, each conditioned on specific
library versions and accompanied by executable unit tests. GitChameleon
rigorously evaluates the capacity of contemporary large language models (LLMs),
LLM-powered agents, code assistants, and RAG systems to perform
version-conditioned code generation that demonstrates functional accuracy
through execution. Our extensive evaluations indicate that state-of-the-art
systems encounter significant challenges with this task; enterprise models
achieving baseline success rates in the 48-51\% range, underscoring the
intricacy of the problem. By offering an execution-based benchmark emphasizing
the dynamic nature of code libraries, GitChameleon enables a clearer
understanding of this challenge and helps guide the development of more
adaptable and dependable AI code generation methods. We make the dataset and
evaluation code publicly available at
https://github.com/mrcabbage972/GitChameleonBenchmark.