OpenCodeInterpreter: Integratie van Codegeneratie met Uitvoering en Verfijning
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
Auteurs: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
Samenvatting
De introductie van grote taalmodellen heeft codegeneratie aanzienlijk vooruitgebracht. Open-source modellen ontberen echter vaak de uitvoeringsmogelijkheden en iteratieve verfijning van geavanceerde systemen zoals de GPT-4 Code Interpreter. Om dit aan te pakken, introduceren we OpenCodeInterpreter, een familie van open-source codesystemen die zijn ontworpen voor het genereren, uitvoeren en iteratief verfijnen van code. Ondersteund door Code-Feedback, een dataset met 68K multi-turn interacties, integreert OpenCodeInterpreter uitvoering en menselijke feedback voor dynamische codeverfijning. Onze uitgebreide evaluatie van OpenCodeInterpreter op belangrijke benchmarks zoals HumanEval, MBPP en hun verbeterde versies van EvalPlus toont zijn uitzonderlijke prestaties. Opmerkelijk is dat OpenCodeInterpreter-33B een nauwkeurigheid behaalt van 83,2 (76,4) op de gemiddelde (en plus versies) van HumanEval en MBPP, wat dicht in de buurt komt van GPT-4's 84,2 (76,2) en verder stijgt tot 91,6 (84,6) met gesynthetiseerde menselijke feedback van GPT-4. OpenCodeInterpreter verkleint de kloof tussen open-source codegeneratiemodellen en propriëtaire systemen zoals GPT-4 Code Interpreter.
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.