OpenCodeInterpreter: Integrando Geração de Código com Execução e Refinamento
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
Autores: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
Resumo
A introdução de grandes modelos de linguagem avançou significativamente a geração de código. No entanto, modelos de código aberto frequentemente carecem das capacidades de execução e refinamento iterativo de sistemas avançados como o GPT-4 Code Interpreter. Para abordar essa lacuna, apresentamos o OpenCodeInterpreter, uma família de sistemas de código aberto projetados para gerar, executar e refinar código iterativamente. Suportado pelo Code-Feedback, um conjunto de dados com 68 mil interações multi-turn, o OpenCodeInterpreter integra execução e feedback humano para refinamento dinâmico de código. Nossa avaliação abrangente do OpenCodeInterpreter em benchmarks-chave como HumanEval, MBPP e suas versões aprimoradas do EvalPlus revela um desempenho excepcional. Notavelmente, o OpenCodeInterpreter-33B alcança uma precisão de 83,2 (76,4) nas médias (e versões plus) do HumanEval e MBPP, rivalizando de perto com o GPT-4, que alcança 84,2 (76,2), e eleva-se ainda mais para 91,6 (84,6) com feedback humano sintetizado do GPT-4. O OpenCodeInterpreter reduz a lacuna entre modelos de geração de código de código aberto e sistemas proprietários como o GPT-4 Code Interpreter.
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.