OpenCodeInterpreter : Intégration de la génération de code avec l'exécution et l'affinement
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
Auteurs: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
Résumé
L'introduction des grands modèles de langage a considérablement fait progresser la génération de code. Cependant, les modèles open source manquent souvent des capacités d'exécution et de raffinement itératif des systèmes avancés comme l'interpréteur de code GPT-4. Pour remédier à cela, nous présentons OpenCodeInterpreter, une famille de systèmes de code open source conçus pour générer, exécuter et affiner itérativement le code. Soutenu par Code-Feedback, un ensemble de données comprenant 68 000 interactions multi-tours, OpenCodeInterpreter intègre l'exécution et les retours humains pour un raffinement dynamique du code. Notre évaluation approfondie d'OpenCodeInterpreter sur des benchmarks clés tels que HumanEval, MBPP et leurs versions améliorées d'EvalPlus révèle ses performances exceptionnelles. Notamment, OpenCodeInterpreter-33B atteint une précision de 83,2 (76,4) sur les versions moyennes (et plus) de HumanEval et MBPP, rivalisant de près avec les 84,2 (76,2) de GPT-4, et monte encore à 91,6 (84,6) avec des retours humains synthétisés de GPT-4. OpenCodeInterpreter réduit l'écart entre les modèles open source de génération de code et les systèmes propriétaires comme l'interpréteur de code GPT-4.
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.