OpenCodeInterpreter : Intégration de la génération de code avec l'exécution et l'affinementOpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement
L'introduction des grands modèles de langage a considérablement fait progresser la génération de code. Cependant, les modèles open source manquent souvent des capacités d'exécution et de raffinement itératif des systèmes avancés comme l'interpréteur de code GPT-4. Pour remédier à cela, nous présentons OpenCodeInterpreter, une famille de systèmes de code open source conçus pour générer, exécuter et affiner itérativement le code. Soutenu par Code-Feedback, un ensemble de données comprenant 68 000 interactions multi-tours, OpenCodeInterpreter intègre l'exécution et les retours humains pour un raffinement dynamique du code. Notre évaluation approfondie d'OpenCodeInterpreter sur des benchmarks clés tels que HumanEval, MBPP et leurs versions améliorées d'EvalPlus révèle ses performances exceptionnelles. Notamment, OpenCodeInterpreter-33B atteint une précision de 83,2 (76,4) sur les versions moyennes (et plus) de HumanEval et MBPP, rivalisant de près avec les 84,2 (76,2) de GPT-4, et monte encore à 91,6 (84,6) avec des retours humains synthétisés de GPT-4. OpenCodeInterpreter réduit l'écart entre les modèles open source de génération de code et les systèmes propriétaires comme l'interpréteur de code GPT-4.