OpenCodeInterpreter: コード生成と実行、改良の統合OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement
大規模言語モデルの導入により、コード生成は大きく進化しました。しかし、オープンソースモデルは、GPT-4 Code Interpreterのような高度なシステムが持つ実行能力や反復的な改良を欠いていることが多いです。この問題に対処するため、私たちはOpenCodeInterpreterを紹介します。これは、コードの生成、実行、反復的な改良を目的とした一連のオープンソースコードシステムです。68Kのマルチターンインタラクションを含むCode-Feedbackデータセットに支えられ、OpenCodeInterpreterは実行と人間のフィードバックを統合し、動的なコード改良を実現します。HumanEval、MBPP、およびEvalPlusによるそれらの拡張版といった主要なベンチマークでの包括的な評価により、OpenCodeInterpreterの卓越した性能が明らかになりました。特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および拡張版)で83.2(76.4)の精度を達成し、GPT-4の84.2(76.2)に迫る性能を示し、さらにGPT-4からの合成された人間のフィードバックを用いることで91.6(84.6)まで向上します。OpenCodeInterpreterは、オープンソースのコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップを埋めるものです。