EpiCoder: Охватывая разнообразие и сложность в генерации кода

Аннотация

Эффективная настройка инструкций необходима для оптимизации кода LLMs, согласования поведения модели с ожиданиями пользователей и улучшения производительности модели в реальных приложениях. Однако большинство существующих методов сосредоточены на фрагментах кода, ограниченных определенными функциональностями и жесткими структурами, что ограничивает сложность и разнообразие синтезированных данных. Для преодоления этих ограничений мы представляем новую синтезирующую структуру на основе деревьев признаков, вдохновленную абстрактными синтаксическими деревьями (AST). В отличие от AST, который захватывает синтаксическую структуру кода, наша структура моделирует семантические отношения между элементами кода, обеспечивая генерацию более тонких и разнообразных данных. Дерево признаков строится из исходных данных и итеративно уточняется для увеличения количества и разнообразия извлеченных признаков. Этот процесс позволяет выявлять более сложные шаблоны и отношения внутри кода. Путем выборки поддеревьев с контролируемой глубиной и шириной наша структура позволяет точно настраивать сложность сгенерированного кода, поддерживая широкий спектр задач от простых операций на уровне функций до сложных сценариев с несколькими файлами. Мы донастраивали широко используемые базовые модели для создания серии EpiCoder, достигая передовой производительности как на уровне функций, так и файлов по нескольким бенчмаркам. Особенно важно, что эмпирические данные указывают на значительный потенциал нашего подхода в синтезе высоко сложных данных кода на уровне репозитория. Дальнейший анализ разъясняет преимущества этого подхода путем тщательной оценки сложности и разнообразия данных с помощью принципов инженерии программного обеспечения и метода LLM-как-судьи.

English

Effective instruction tuning is indispensable for optimizing code LLMs, aligning model behavior with user expectations and enhancing model performance in real-world applications. However, most existing methods focus on code snippets, which are limited to specific functionalities and rigid structures, restricting the complexity and diversity of the synthesized data. To address these limitations, we introduce a novel feature tree-based synthesis framework inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic structure of code, our framework models semantic relationships between code elements, enabling the generation of more nuanced and diverse data. The feature tree is constructed from raw data and refined iteratively to increase the quantity and diversity of the extracted features. This process enables the identification of more complex patterns and relationships within the code. By sampling subtrees with controlled depth and breadth, our framework allows precise adjustments to the complexity of the generated code, supporting a wide range of tasks from simple function-level operations to intricate multi-file scenarios. We fine-tuned widely-used base models to create the EpiCoder series, achieving state-of-the-art performance at both the function and file levels across multiple benchmarks. Notably, empirical evidence indicates that our approach shows significant potential in synthesizing highly complex repository-level code data. Further analysis elucidates the merits of this approach by rigorously assessing data complexity and diversity through software engineering principles and LLM-as-a-judge method.

EpiCoder: Охватывая разнообразие и сложность в генерации кода

EpiCoder: Encompassing Diversity and Complexity in Code Generation

Аннотация

Support