Wie performen Ihre Code-LM-Modelle? Die Optimierung von Code-Anweisungen durch hochwertige DatenHow Do Your Code LLMs Perform? Empowering Code Instruction Tuning with
High-Quality Data
In letzter Zeit gibt es ein wachsendes Interesse daran, zu untersuchen, wie man bessere Code-Anweisungen für die Feinabstimmung von Daten erstellen kann. Allerdings stellen wir fest, dass Code-Modelle, die mit diesen Datensätzen trainiert wurden, eine hohe Leistung bei HumanEval zeigen, aber schlechter bei anderen Benchmarks wie LiveCodeBench abschneiden. Bei genauerer Untersuchung stellen wir fest, dass viele Datensätze unter starkem Datenleck leiden. Nachdem wir die meisten durchgesickerten Daten bereinigt haben, zeigen einige bekannte hochwertige Datensätze eine schlechte Leistung. Diese Entdeckung offenbart eine neue Herausforderung: die Identifizierung von Datensätzen, die tatsächlich als hochwertige Code-Anweisungsdaten gelten. Um dies zu lösen, schlagen wir eine effiziente Strategie zur Bereinigung von Code-Daten vor, um gute Beispiele auszuwählen. Unser Ansatz basiert auf drei Dimensionen: Anweisungskomplexität, Antwortqualität und Anweisungsvielfalt. Basierend auf unseren ausgewählten Daten präsentieren wir XCoder, eine Familie von Modellen, die aus LLaMA3 feinabgestimmt wurden. Unsere Experimente zeigen, dass XCoder eine neue Bestleistung erzielt, indem weniger Trainingsdaten verwendet werden, was die Wirksamkeit unserer Datenstrategie bestätigt. Darüber hinaus führen wir eine umfassende Analyse der Datenzusammensetzung durch und stellen fest, dass vorhandene Code-Datensätze je nach ihren Konstruktionsmethoden unterschiedliche Eigenschaften aufweisen, was neue Erkenntnisse für zukünftige Code-LLMs liefert. Unsere Modelle und Datensätze sind unter https://github.com/banksy23/XCoder veröffentlicht.