HumanEval Pro en MBPP Pro: Het evalueren van grote taalmodellen op zelf-oproepende codegeneratie.
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
Auteurs: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Samenvatting
We introduceren zelfaanroepende codegeneratie, een nieuwe taak ontworpen om de progressieve redenering en probleemoplossende capaciteiten van LLM's te evalueren. In deze taak worden modellen gepresenteerd met een basisprobleem en een gerelateerd, complexer probleem. Ze moeten het basisprobleem oplossen en vervolgens de oplossing gebruiken om het complexere probleem aan te pakken. Dit werk omvat drie belangrijke bijdragen. Ten eerste stellen we een algemeen recept voor om uitdagendere versies van bestaande benchmarks te genereren, resulterend in drie nieuwe benchmarks: HumanEval Pro, MBPP Pro en BigCodeBench-Lite Pro, specifiek ontworpen om LLM's te beoordelen op zelfaanroepende codegeneratie. Ten tweede, uit de analyse van experimentele resultaten over twintig LLM's op onze benchmarks, hebben we twee belangrijke observaties: (i) De meeste LLM's excelleren in traditionele codegeneratie benchmarks zoals HumanEval en MBPP, maar hun prestaties dalen bij zelfaanroepende taken. Bijvoorbeeld, o1-mini behaalt 96,2% pass@1 op HumanEval maar slechts 76,2% op HumanEval Pro. (ii) Bij de zelfaanroepende codegeneratietaak laten de op instructies afgestemde modellen slechts marginale verbeteringen zien in vergelijking met de basismodellen. Ten derde onthullen we de soorten faalmodi die voorkomen in onze evaluatieresultaten. Al deze resultaten benadrukken de noodzaak van verdere vooruitgang in zelfaanroepende codegeneratietaken en bieden een nieuwe richting voor toekomstig onderzoek naar het verbeteren van de codeerredeneervaardigheden van LLM's.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary