HumanEval Pro et MBPP Pro : Évaluation des grands modèles de langage sur la génération de code auto-invoquant

papers.abstract

Nous introduisons la génération de code auto-invoquant, une nouvelle tâche conçue pour évaluer les capacités progressives de raisonnement et de résolution de problèmes des LLM. Dans cette tâche, les modèles se voient présenter un problème de base et un problème plus complexe associé. Ils doivent résoudre le problème de base puis utiliser sa solution pour aborder le problème plus complexe. Ce travail présente trois contributions clés. Tout d'abord, nous proposons une recette générale pour générer des versions plus difficiles des benchmarks existants, ce qui a abouti à trois nouveaux benchmarks : HumanEval Pro, MBPP Pro et BigCodeBench-Lite Pro, spécifiquement conçus pour évaluer les LLMs sur la génération de code auto-invoquant. Deuxièmement, à partir de l'analyse des résultats expérimentaux sur vingt LLMs sur nos benchmarks, nous avons deux observations importantes : (i) La plupart des LLMs excellent dans les benchmarks traditionnels de génération de code comme HumanEval et MBPP, mais leurs performances diminuent sur les tâches d'auto-invoquation. Par exemple, o1-mini atteint 96,2 % de réussite@1 sur HumanEval mais seulement 76,2 % sur HumanEval Pro. (ii) Sur la tâche de génération de code auto-invoquant, les modèles ajustés aux instructions ne montrent que des améliorations marginales par rapport aux modèles de base. Troisièmement, nous révélons les types de modes de défaillance présents dans nos résultats d'évaluation. Tous ces résultats soulignent la nécessité de progrès supplémentaires dans les tâches de génération de code auto-invoquant et ouvrent une nouvelle voie pour la recherche future sur l'amélioration des capacités de raisonnement en code des LLMs.

English

We introduce self-invoking code generation, a new task designed to evaluate the progressive reasoning and problem-solving capabilities of LLMs. In this task, models are presented with a base problem and a related, more complex problem. They must solve the base problem and then utilize its solution to address the more complex one. This work features three key contributions. First, we propose a general recipe for generating more challenging versions of existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on self-invoking code generation. Second, from the analysis of experimental results over twenty LLMs on our benchmarks, we have two important observations: (i) Most LLMs excel in traditional code generation benchmarks like HumanEval and MBPP, but their performance declines on self-invoking tasks. For example, o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro. (ii) On self-invoking code generation task, the instruction-tuned models demonstrate only marginal improvements compared to the base models. Third, we disclose the types of failure modes that exist in our evaluation results. All these results underscore the need for further advancements in self-invoking code generation tasks and provide a new direction for future research on enhancing LLMs' code reasoning capabilities.

HumanEval Pro et MBPP Pro : Évaluation des grands modèles de langage sur la génération de code auto-invoquant

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

papers.abstract

Support