OpenCodeInterpreter: コード生成と実行、改良の統合
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
February 22, 2024
著者: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
cs.AI
要旨
大規模言語モデルの導入により、コード生成は大きく進化しました。しかし、オープンソースモデルは、GPT-4 Code Interpreterのような高度なシステムが持つ実行能力や反復的な改良を欠いていることが多いです。この問題に対処するため、私たちはOpenCodeInterpreterを紹介します。これは、コードの生成、実行、反復的な改良を目的とした一連のオープンソースコードシステムです。68Kのマルチターンインタラクションを含むCode-Feedbackデータセットに支えられ、OpenCodeInterpreterは実行と人間のフィードバックを統合し、動的なコード改良を実現します。HumanEval、MBPP、およびEvalPlusによるそれらの拡張版といった主要なベンチマークでの包括的な評価により、OpenCodeInterpreterの卓越した性能が明らかになりました。特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および拡張版)で83.2(76.4)の精度を達成し、GPT-4の84.2(76.2)に迫る性能を示し、さらにGPT-4からの合成された人間のフィードバックを用いることで91.6(84.6)まで向上します。OpenCodeInterpreterは、オープンソースのコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップを埋めるものです。
English
The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.