Zu coden oder nicht zu coden? Untersuchung der Auswirkungen von Code beim Pre-Training.

papers.abstract

Die Einbeziehung von Code in das Vormischungsdatengemisch, selbst für Modelle, die nicht speziell für Code entwickelt wurden, ist zu einer gängigen Praxis beim Vormischen von LLMs geworden. Während unter Praktikern eine anekdotische Übereinstimmung besteht, dass Code-Daten eine wichtige Rolle für die Leistung allgemeiner LLMs spielen, gibt es nur begrenzte Arbeiten, die den genauen Einfluss von Code auf Nicht-Code-Aufgaben analysieren. In dieser Arbeit untersuchen wir systematisch den Einfluss von Code-Daten auf die allgemeine Leistung. Wir fragen "Welchen Einfluss haben Code-Daten, die beim Vormischen verwendet werden, auf eine Vielzahl von nachgelagerten Aufgaben jenseits der Code-Generierung?" Wir führen umfangreiche Ablationen durch und bewerten über eine breite Palette von natürlichsprachlichen Schlussfolgerungsaufgaben, Weltwissensaufgaben, Code-Benchmarks und LLM-als-Richter-Gewinnraten für Modelle mit Größen von 470 Mio. bis 2,8 Mrd. Parametern. Über verschiedene Einstellungen hinweg stellen wir konsistente Ergebnisse fest, dass Code ein entscheidender Baustein für die Verallgemeinerung weit über Codieraufgaben hinaus ist und Verbesserungen der Code-Qualität einen überproportionalen Einfluss auf alle Aufgaben haben. Insbesondere führt die Zugabe von Code im Vergleich zum ausschließlichen Vormischen von Text zu einem relativen Anstieg von bis zu 8,2 % bei der natürlichsprachlichen Schlussfolgerung, 4,2 % beim Weltwissen, einer 6,6%igen Verbesserung bei generativen Gewinnraten und einer 12-fachen Steigerung der Code-Performance. Unsere Arbeit legt nahe, dass Investitionen in die Code-Qualität und die Erhaltung des Codes während des Vormischens positive Auswirkungen haben.

English

Including code in the pre-training data mixture, even for models not specifically designed for code, has become a common practice in LLMs pre-training. While there has been anecdotal consensus among practitioners that code data plays a vital role in general LLMs' performance, there is only limited work analyzing the precise impact of code on non-code tasks. In this work, we systematically investigate the impact of code data on general performance. We ask "what is the impact of code data used in pre-training on a large variety of downstream tasks beyond code generation". We conduct extensive ablations and evaluate across a broad range of natural language reasoning tasks, world knowledge tasks, code benchmarks, and LLM-as-a-judge win-rates for models with sizes ranging from 470M to 2.8B parameters. Across settings, we find a consistent results that code is a critical building block for generalization far beyond coding tasks and improvements to code quality have an outsized impact across all tasks. In particular, compared to text-only pre-training, the addition of code results in up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates, and a 12x boost in code performance respectively. Our work suggests investments in code quality and preserving code during pre-training have positive impacts.

Zu coden oder nicht zu coden? Untersuchung der Auswirkungen von Code beim Pre-Training.

To Code, or Not To Code? Exploring Impact of Code in Pre-training

papers.abstract

Support