OpenCodeInterpreter: Integration von Code-Generierung mit Ausführung und Verfeinerung
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
Autoren: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
Zusammenfassung
Die Einführung großer Sprachmodelle hat die Code-Generierung erheblich vorangetrieben. Allerdings mangelt es Open-Source-Modellen oft an den Ausführungsfähigkeiten und der iterativen Verbesserung fortschrittlicher Systeme wie dem GPT-4 Code Interpreter. Um dies zu adressieren, stellen wir OpenCodeInterpreter vor, eine Familie von Open-Source-Code-Systemen, die für die Generierung, Ausführung und iterative Verbesserung von Code entwickelt wurden. Unterstützt durch Code-Feedback, einem Datensatz mit 68K mehrstufigen Interaktionen, integriert OpenCodeInterpreter Ausführung und menschliches Feedback für eine dynamische Code-Verbesserung. Unsere umfassende Bewertung von OpenCodeInterpreter anhand wichtiger Benchmarks wie HumanEval, MBPP und deren erweiterter Versionen von EvalPlus zeigt seine außergewöhnliche Leistung. Insbesondere erreicht OpenCodeInterpreter-33B eine Genauigkeit von 83,2 (76,4) auf den durchschnittlichen (und erweiterten Versionen) von HumanEval und MBPP, was nahe an GPT-4s 84,2 (76,2) heranreicht und sich mit synthetisiertem menschlichem Feedback von GPT-4 auf 91,6 (84,6) weiter steigert. OpenCodeInterpreter schließt die Lücke zwischen Open-Source-Code-Generierungsmodellen und proprietären Systemen wie dem GPT-4 Code Interpreter.
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.