OpenCodeInterpreter: Интеграция генерации кода с выполнением и уточнением
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
Авторы: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
Аннотация
Внедрение крупных языковых моделей значительно продвинуло генерацию кода. Однако открытые модели часто уступают в возможностях выполнения и итеративного уточнения кода по сравнению с продвинутыми системами, такими как GPT-4 Code Interpreter. Для решения этой проблемы мы представляем OpenCodeInterpreter — семейство открытых систем для генерации, выполнения и итеративного уточнения кода. Поддерживаемый набором данных Code-Feedback, содержащим 68 тысяч многоходовых взаимодействий, OpenCodeInterpreter интегрирует выполнение кода и обратную связь от человека для динамического уточнения кода. Наше всестороннее тестирование OpenCodeInterpreter на ключевых бенчмарках, таких как HumanEval, MBPP и их улучшенных версиях из EvalPlus, демонстрирует его выдающуюся производительность. В частности, OpenCodeInterpreter-33B достигает точности 83,2 (76,4) на средних (и улучшенных) версиях HumanEval и MBPP, что близко к результату GPT-4 — 84,2 (76,2), а с синтезированной обратной связью от GPT-4 этот показатель повышается до 91,6 (84,6). OpenCodeInterpreter сокращает разрыв между открытыми моделями генерации кода и проприетарными системами, такими как GPT-4 Code Interpreter.
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.