EpiCoder: Abordando la Diversidad y Complejidad en la Generación de Código

Resumen

La sintonización efectiva de instrucciones es indispensable para optimizar los LLM de código, alinear el comportamiento del modelo con las expectativas del usuario y mejorar el rendimiento del modelo en aplicaciones del mundo real. Sin embargo, la mayoría de los métodos existentes se centran en fragmentos de código, que están limitados a funcionalidades específicas y estructuras rígidas, lo que restringe la complejidad y diversidad de los datos sintetizados. Para abordar estas limitaciones, presentamos un novedoso marco de síntesis basado en árboles de características inspirado en los Árboles de Sintaxis Abstracta (AST). A diferencia del AST, que captura la estructura sintáctica del código, nuestro marco modela las relaciones semánticas entre los elementos de código, lo que permite la generación de datos más matizados y diversos. El árbol de características se construye a partir de datos en bruto y se refina de forma iterativa para aumentar la cantidad y diversidad de las características extraídas. Este proceso permite identificar patrones y relaciones más complejos dentro del código. Muestreando subárboles con profundidad y amplitud controladas, nuestro marco permite ajustes precisos a la complejidad del código generado, respaldando una amplia gama de tareas, desde operaciones simples a nivel de función hasta escenarios multi-archivo intrincados. Ajustamos finamente modelos base ampliamente utilizados para crear la serie EpiCoder, logrando un rendimiento de vanguardia tanto a nivel de función como de archivo en múltiples pruebas. Es importante destacar que la evidencia empírica indica que nuestro enfoque muestra un potencial significativo en la síntesis de datos de código de repositorio altamente complejos. Un análisis adicional aclara los méritos de este enfoque al evaluar rigurosamente la complejidad y diversidad de los datos a través de principios de ingeniería de software y el método LLM-como-juez.

English

Effective instruction tuning is indispensable for optimizing code LLMs, aligning model behavior with user expectations and enhancing model performance in real-world applications. However, most existing methods focus on code snippets, which are limited to specific functionalities and rigid structures, restricting the complexity and diversity of the synthesized data. To address these limitations, we introduce a novel feature tree-based synthesis framework inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic structure of code, our framework models semantic relationships between code elements, enabling the generation of more nuanced and diverse data. The feature tree is constructed from raw data and refined iteratively to increase the quantity and diversity of the extracted features. This process enables the identification of more complex patterns and relationships within the code. By sampling subtrees with controlled depth and breadth, our framework allows precise adjustments to the complexity of the generated code, supporting a wide range of tasks from simple function-level operations to intricate multi-file scenarios. We fine-tuned widely-used base models to create the EpiCoder series, achieving state-of-the-art performance at both the function and file levels across multiple benchmarks. Notably, empirical evidence indicates that our approach shows significant potential in synthesizing highly complex repository-level code data. Further analysis elucidates the merits of this approach by rigorously assessing data complexity and diversity through software engineering principles and LLM-as-a-judge method.