HumanEval Pro und MBPP Pro: Evaluierung großer Sprachmodelle bei der Generierung von selbstaufrufendem Code
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
Autoren: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Zusammenfassung
Wir stellen die selbstaufrufende Codegenerierung vor, eine neue Aufgabe, die entwickelt wurde, um die fortschrittlichen Denk- und Problemlösungsfähigkeiten von LLMs zu bewerten. In dieser Aufgabe werden den Modellen ein Grundproblem und ein damit verbundenes, komplexeres Problem präsentiert. Sie müssen das Grundproblem lösen und dann dessen Lösung nutzen, um das komplexere Problem anzugehen. Diese Arbeit umfasst drei wesentliche Beiträge. Erstens schlagen wir ein allgemeines Rezept zur Erzeugung anspruchsvollerer Versionen bestehender Benchmarks vor, was zur Schaffung von drei neuen Benchmarks führt: HumanEval Pro, MBPP Pro und BigCodeBench-Lite Pro, die speziell entwickelt wurden, um LLMs in der selbstaufrufenden Codegenerierung zu bewerten. Zweitens haben wir aus der Analyse experimenteller Ergebnisse über zwanzig LLMs auf unseren Benchmarks zwei wichtige Beobachtungen gemacht: (i) Die meisten LLMs glänzen in traditionellen Codegenerierungsbenchmarks wie HumanEval und MBPP, aber ihre Leistung sinkt bei selbstaufrufenden Aufgaben. Zum Beispiel erreicht o1-mini 96,2% Pass@1 bei HumanEval, aber nur 76,2% bei HumanEval Pro. (ii) Bei der selbstaufrufenden Codegenerierungsaufgabe zeigen die anweisungsgesteuerten Modelle nur marginale Verbesserungen im Vergleich zu den Grundmodellen. Drittens offenbaren wir die Arten von Fehlermodi, die in unseren Evaluierungsergebnissen existieren. All diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei selbstaufrufenden Codegenerierungsaufgaben und bieten eine neue Richtung für zukünftige Forschung zur Verbesserung der Code-Argumentationsfähigkeiten von LLMs.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary