OpenCodeInterpreter: Integración de la Generación de Código con Ejecución y Refinamiento
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
Autores: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
Resumen
La introducción de los modelos de lenguaje de gran escala ha avanzado significativamente la generación de código. Sin embargo, los modelos de código abierto a menudo carecen de las capacidades de ejecución y refinamiento iterativo de sistemas avanzados como el GPT-4 Code Interpreter. Para abordar esto, presentamos OpenCodeInterpreter, una familia de sistemas de código abierto diseñados para generar, ejecutar y refinar código de manera iterativa. Respaldado por Code-Feedback, un conjunto de datos que incluye 68K interacciones multiturno, OpenCodeInterpreter integra la ejecución y la retroalimentación humana para el refinamiento dinámico del código. Nuestra evaluación exhaustiva de OpenCodeInterpreter en puntos de referencia clave como HumanEval, MBPP y sus versiones mejoradas de EvalPlus revela un rendimiento excepcional. En particular, OpenCodeInterpreter-33B logra una precisión de 83.2 (76.4) en el promedio (y versiones plus) de HumanEval y MBPP, rivalizando estrechamente con el 84.2 (76.2) de GPT-4, y se eleva aún más a 91.6 (84.6) con retroalimentación humana sintetizada de GPT-4. OpenCodeInterpreter reduce la brecha entre los modelos de generación de código de código abierto y los sistemas propietarios como GPT-4 Code Interpreter.
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.