OpenCodeInterpreter: Integration von Code-Generierung mit Ausführung und VerfeinerungOpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement
Die Einführung großer Sprachmodelle hat die Code-Generierung erheblich vorangetrieben. Allerdings mangelt es Open-Source-Modellen oft an den Ausführungsfähigkeiten und der iterativen Verbesserung fortschrittlicher Systeme wie dem GPT-4 Code Interpreter. Um dies zu adressieren, stellen wir OpenCodeInterpreter vor, eine Familie von Open-Source-Code-Systemen, die für die Generierung, Ausführung und iterative Verbesserung von Code entwickelt wurden. Unterstützt durch Code-Feedback, einem Datensatz mit 68K mehrstufigen Interaktionen, integriert OpenCodeInterpreter Ausführung und menschliches Feedback für eine dynamische Code-Verbesserung. Unsere umfassende Bewertung von OpenCodeInterpreter anhand wichtiger Benchmarks wie HumanEval, MBPP und deren erweiterter Versionen von EvalPlus zeigt seine außergewöhnliche Leistung. Insbesondere erreicht OpenCodeInterpreter-33B eine Genauigkeit von 83,2 (76,4) auf den durchschnittlichen (und erweiterten Versionen) von HumanEval und MBPP, was nahe an GPT-4s 84,2 (76,2) heranreicht und sich mit synthetisiertem menschlichem Feedback von GPT-4 auf 91,6 (84,6) weiter steigert. OpenCodeInterpreter schließt die Lücke zwischen Open-Source-Code-Generierungsmodellen und proprietären Systemen wie dem GPT-4 Code Interpreter.