HumanEval Pro и MBPP Pro: Оценка больших языковых моделей на генерации кода, вызываемого самим собой

Аннотация

Мы представляем генерацию кода с автовызовом, новую задачу, разработанную для оценки прогрессивного мышления и способностей к решению проблем у LLM. В этой задаче моделям представляется базовая проблема и связанная с ней более сложная проблема. Они должны решить базовую проблему, а затем использовать ее решение для решения более сложной. Эта работа включает три ключевых вклада. Во-первых, мы предлагаем общий рецепт для создания более сложных версий существующих бенчмарков, что привело к появлению трех новых бенчмарков: HumanEval Pro, MBPP Pro и BigCodeBench-Lite Pro, специально разработанных для оценки LLM по генерации кода с автовызовом. Во-вторых, из анализа экспериментальных результатов более чем двадцати LLM на наших бенчмарках у нас есть два важных наблюдения: (i) Большинство LLM преуспевают в традиционных бенчмарках по генерации кода, таких как HumanEval и MBPP, но их производительность снижается на задачах с автовызовом. Например, o1-mini достигает 96.2% pass@1 на HumanEval, но только 76.2% на HumanEval Pro. (ii) В задаче генерации кода с автовызовом модели, настроенные на инструкции, демонстрируют лишь незначительные улучшения по сравнению с базовыми моделями. В-третьих, мы раскрываем типы режимов отказа, которые существуют в наших результатах оценки. Все эти результаты подчеркивают необходимость дальнейшего развития задач генерации кода с автовызовом и указывают на новое направление для будущих исследований по улучшению способностей LLM к рассуждению о коде.

English

We introduce self-invoking code generation, a new task designed to evaluate the progressive reasoning and problem-solving capabilities of LLMs. In this task, models are presented with a base problem and a related, more complex problem. They must solve the base problem and then utilize its solution to address the more complex one. This work features three key contributions. First, we propose a general recipe for generating more challenging versions of existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on self-invoking code generation. Second, from the analysis of experimental results over twenty LLMs on our benchmarks, we have two important observations: (i) Most LLMs excel in traditional code generation benchmarks like HumanEval and MBPP, but their performance declines on self-invoking tasks. For example, o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro. (ii) On self-invoking code generation task, the instruction-tuned models demonstrate only marginal improvements compared to the base models. Third, we disclose the types of failure modes that exist in our evaluation results. All these results underscore the need for further advancements in self-invoking code generation tasks and provide a new direction for future research on enhancing LLMs' code reasoning capabilities.

HumanEval Pro и MBPP Pro: Оценка больших языковых моделей на генерации кода, вызываемого самим собой

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Аннотация

Support