EpiCoder: Vielfalt und Komplexität bei der Code-Generierung umfassen

Zusammenfassung

Eine effektive Anpassung der Anweisungen ist unerlässlich, um Code-LLMs zu optimieren, das Verhalten des Modells an die Erwartungen der Benutzer anzupassen und die Leistung des Modells in realen Anwendungen zu verbessern. Die meisten bestehenden Methoden konzentrieren sich jedoch auf Code-Schnipsel, die auf spezifische Funktionalitäten und starre Strukturen beschränkt sind, was die Komplexität und Vielfalt der synthetisierten Daten einschränkt. Um diese Einschränkungen zu überwinden, stellen wir ein neuartiges Merkmalbaum-Synthese-Framework vor, das von abstrakten Syntaxbäumen (AST) inspiriert ist. Im Gegensatz zu AST, das die syntaktische Struktur des Codes erfasst, modelliert unser Framework semantische Beziehungen zwischen Code-Elementen, was die Generierung nuancierterer und vielfältigerer Daten ermöglicht. Der Merkmalbaum wird aus Rohdaten konstruiert und iterativ verfeinert, um die Menge und Vielfalt der extrahierten Merkmale zu erhöhen. Dieser Prozess ermöglicht die Identifizierung komplexerer Muster und Beziehungen im Code. Durch die Probenahme von Teilbäumen mit kontrollierter Tiefe und Breite ermöglicht unser Framework präzise Anpassungen an die Komplexität des generierten Codes und unterstützt eine Vielzahl von Aufgaben von einfachen Funktionsoperationen bis hin zu komplexen Szenarien mit mehreren Dateien. Wir haben weit verbreitete Basismodelle feinabgestimmt, um die EpiCoder-Serie zu erstellen, und dabei Spitzenleistungen auf Funktionsebene und Dateiebene in verschiedenen Benchmarks erzielt. Bemerkenswert ist, dass empirische Beweise darauf hindeuten, dass unser Ansatz ein signifikantes Potenzial zur Synthese hochkomplexer Code-Daten auf Repository-Ebene aufweist. Eine weitere Analyse verdeutlicht die Vorzüge dieses Ansatzes, indem Datenkomplexität und -vielfalt durch Softwaretechnikprinzipien und die LLM-als-Richter-Methode rigoros bewertet werden.

English

Effective instruction tuning is indispensable for optimizing code LLMs, aligning model behavior with user expectations and enhancing model performance in real-world applications. However, most existing methods focus on code snippets, which are limited to specific functionalities and rigid structures, restricting the complexity and diversity of the synthesized data. To address these limitations, we introduce a novel feature tree-based synthesis framework inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic structure of code, our framework models semantic relationships between code elements, enabling the generation of more nuanced and diverse data. The feature tree is constructed from raw data and refined iteratively to increase the quantity and diversity of the extracted features. This process enables the identification of more complex patterns and relationships within the code. By sampling subtrees with controlled depth and breadth, our framework allows precise adjustments to the complexity of the generated code, supporting a wide range of tasks from simple function-level operations to intricate multi-file scenarios. We fine-tuned widely-used base models to create the EpiCoder series, achieving state-of-the-art performance at both the function and file levels across multiple benchmarks. Notably, empirical evidence indicates that our approach shows significant potential in synthesizing highly complex repository-level code data. Further analysis elucidates the merits of this approach by rigorously assessing data complexity and diversity through software engineering principles and LLM-as-a-judge method.