HumanEval Pro y MBPP Pro: Evaluando Modelos de Lenguaje Grandes en la Generación de Código Autoinvocable
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
Autores: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Resumen
Introducimos la generación de código autoinvocante, una nueva tarea diseñada para evaluar las capacidades progresivas de razonamiento y resolución de problemas de LLMs. En esta tarea, se presentan a los modelos un problema base y un problema relacionado, más complejo. Deben resolver el problema base y luego utilizar su solución para abordar el más complejo. Este trabajo presenta tres contribuciones clave. Primero, proponemos una receta general para generar versiones más desafiantes de los benchmarks existentes, lo que resulta en tres nuevos benchmarks: HumanEval Pro, MBPP Pro y BigCodeBench-Lite Pro, diseñados específicamente para evaluar a los LLMs en la generación de código autoinvocante. Segundo, a partir del análisis de los resultados experimentales de más de veinte LLMs en nuestros benchmarks, tenemos dos observaciones importantes: (i) La mayoría de los LLMs destacan en benchmarks tradicionales de generación de código como HumanEval y MBPP, pero su rendimiento disminuye en tareas autoinvocantes. Por ejemplo, o1-mini logra un 96.2% de aciertos en HumanEval pero solo un 76.2% en HumanEval Pro. (ii) En la tarea de generación de código autoinvocante, los modelos ajustados a las instrucciones muestran solo mejoras marginales en comparación con los modelos base. Tercero, revelamos los tipos de modos de falla que existen en nuestros resultados de evaluación. Todos estos resultados subrayan la necesidad de avances adicionales en las tareas de generación de código autoinvocante y ofrecen una nueva dirección para futuras investigaciones sobre el mejoramiento de las capacidades de razonamiento de código de los LLMs.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary