EpiCoder : Englobant la diversité et la complexité dans la génération de code

papers.abstract

L'ajustement efficace de l'instruction est indispensable pour optimiser les LLM de code, aligner le comportement du modèle avec les attentes des utilisateurs et améliorer les performances du modèle dans les applications du monde réel. Cependant, la plupart des méthodes existantes se concentrent sur des extraits de code, qui sont limités à des fonctionnalités spécifiques et des structures rigides, restreignant la complexité et la diversité des données synthétisées. Pour remédier à ces limitations, nous introduisons un nouveau cadre de synthèse basé sur un arbre de fonctionnalités, inspiré des Arbres de Syntaxe Abstraite (AST). Contrairement à l'AST, qui capture la structure syntaxique du code, notre cadre modélise les relations sémantiques entre les éléments de code, permettant la génération de données plus nuancées et diversifiées. L'arbre de fonctionnalités est construit à partir de données brutes et affiné de manière itérative pour augmenter la quantité et la diversité des fonctionnalités extraites. Ce processus permet d'identifier des motifs et des relations plus complexes au sein du code. En échantillonnant des sous-arbres avec une profondeur et une largeur contrôlées, notre cadre permet des ajustements précis de la complexité du code généré, soutenant une large gamme de tâches, des opérations simples au niveau des fonctions aux scénarios complexes multi-fichiers. Nous avons affiné des modèles de base largement utilisés pour créer la série EpiCoder, atteignant des performances de pointe à la fois au niveau des fonctions et des fichiers sur plusieurs benchmarks. Notamment, des preuves empiriques indiquent que notre approche montre un potentiel significatif dans la synthèse de données de code de niveau de référentiel hautement complexes. Une analyse plus poussée met en lumière les mérites de cette approche en évaluant rigoureusement la complexité et la diversité des données à travers des principes de génie logiciel et la méthode LLM-comme-juge.

English

Effective instruction tuning is indispensable for optimizing code LLMs, aligning model behavior with user expectations and enhancing model performance in real-world applications. However, most existing methods focus on code snippets, which are limited to specific functionalities and rigid structures, restricting the complexity and diversity of the synthesized data. To address these limitations, we introduce a novel feature tree-based synthesis framework inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic structure of code, our framework models semantic relationships between code elements, enabling the generation of more nuanced and diverse data. The feature tree is constructed from raw data and refined iteratively to increase the quantity and diversity of the extracted features. This process enables the identification of more complex patterns and relationships within the code. By sampling subtrees with controlled depth and breadth, our framework allows precise adjustments to the complexity of the generated code, supporting a wide range of tasks from simple function-level operations to intricate multi-file scenarios. We fine-tuned widely-used base models to create the EpiCoder series, achieving state-of-the-art performance at both the function and file levels across multiple benchmarks. Notably, empirical evidence indicates that our approach shows significant potential in synthesizing highly complex repository-level code data. Further analysis elucidates the merits of this approach by rigorously assessing data complexity and diversity through software engineering principles and LLM-as-a-judge method.

EpiCoder : Englobant la diversité et la complexité dans la génération de code

EpiCoder: Encompassing Diversity and Complexity in Code Generation

papers.abstract

Support