HumanEval Pro et MBPP Pro : Évaluation des grands modèles de langage sur la génération de code auto-invoquant
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
Auteurs: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Résumé
Nous introduisons la génération de code auto-invoquant, une nouvelle tâche conçue pour évaluer les capacités progressives de raisonnement et de résolution de problèmes des LLM. Dans cette tâche, les modèles se voient présenter un problème de base et un problème plus complexe associé. Ils doivent résoudre le problème de base puis utiliser sa solution pour aborder le problème plus complexe. Ce travail présente trois contributions clés. Tout d'abord, nous proposons une recette générale pour générer des versions plus difficiles des benchmarks existants, ce qui a abouti à trois nouveaux benchmarks : HumanEval Pro, MBPP Pro et BigCodeBench-Lite Pro, spécifiquement conçus pour évaluer les LLMs sur la génération de code auto-invoquant. Deuxièmement, à partir de l'analyse des résultats expérimentaux sur vingt LLMs sur nos benchmarks, nous avons deux observations importantes : (i) La plupart des LLMs excellent dans les benchmarks traditionnels de génération de code comme HumanEval et MBPP, mais leurs performances diminuent sur les tâches d'auto-invoquation. Par exemple, o1-mini atteint 96,2 % de réussite@1 sur HumanEval mais seulement 76,2 % sur HumanEval Pro. (ii) Sur la tâche de génération de code auto-invoquant, les modèles ajustés aux instructions ne montrent que des améliorations marginales par rapport aux modèles de base. Troisièmement, nous révélons les types de modes de défaillance présents dans nos résultats d'évaluation. Tous ces résultats soulignent la nécessité de progrès supplémentaires dans les tâches de génération de code auto-invoquant et ouvrent une nouvelle voie pour la recherche future sur l'amélioration des capacités de raisonnement en code des LLMs.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary