Zu coden oder nicht zu coden? Untersuchung der Auswirkungen von Code beim Pre-Training.
To Code, or Not To Code? Exploring Impact of Code in Pre-training
August 20, 2024
papers.authors: Viraat Aryabumi, Yixuan Su, Raymond Ma, Adrien Morisot, Ivan Zhang, Acyr Locatelli, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI
papers.abstract
Die Einbeziehung von Code in das Vormischungsdatengemisch, selbst für Modelle, die nicht speziell für Code entwickelt wurden, ist zu einer gängigen Praxis beim Vormischen von LLMs geworden. Während unter Praktikern eine anekdotische Übereinstimmung besteht, dass Code-Daten eine wichtige Rolle für die Leistung allgemeiner LLMs spielen, gibt es nur begrenzte Arbeiten, die den genauen Einfluss von Code auf Nicht-Code-Aufgaben analysieren. In dieser Arbeit untersuchen wir systematisch den Einfluss von Code-Daten auf die allgemeine Leistung. Wir fragen "Welchen Einfluss haben Code-Daten, die beim Vormischen verwendet werden, auf eine Vielzahl von nachgelagerten Aufgaben jenseits der Code-Generierung?" Wir führen umfangreiche Ablationen durch und bewerten über eine breite Palette von natürlichsprachlichen Schlussfolgerungsaufgaben, Weltwissensaufgaben, Code-Benchmarks und LLM-als-Richter-Gewinnraten für Modelle mit Größen von 470 Mio. bis 2,8 Mrd. Parametern. Über verschiedene Einstellungen hinweg stellen wir konsistente Ergebnisse fest, dass Code ein entscheidender Baustein für die Verallgemeinerung weit über Codieraufgaben hinaus ist und Verbesserungen der Code-Qualität einen überproportionalen Einfluss auf alle Aufgaben haben. Insbesondere führt die Zugabe von Code im Vergleich zum ausschließlichen Vormischen von Text zu einem relativen Anstieg von bis zu 8,2 % bei der natürlichsprachlichen Schlussfolgerung, 4,2 % beim Weltwissen, einer 6,6%igen Verbesserung bei generativen Gewinnraten und einer 12-fachen Steigerung der Code-Performance. Unsere Arbeit legt nahe, dass Investitionen in die Code-Qualität und die Erhaltung des Codes während des Vormischens positive Auswirkungen haben.
English
Including code in the pre-training data mixture, even for models not
specifically designed for code, has become a common practice in LLMs
pre-training. While there has been anecdotal consensus among practitioners that
code data plays a vital role in general LLMs' performance, there is only
limited work analyzing the precise impact of code on non-code tasks. In this
work, we systematically investigate the impact of code data on general
performance. We ask "what is the impact of code data used in pre-training on a
large variety of downstream tasks beyond code generation". We conduct extensive
ablations and evaluate across a broad range of natural language reasoning
tasks, world knowledge tasks, code benchmarks, and LLM-as-a-judge win-rates for
models with sizes ranging from 470M to 2.8B parameters. Across settings, we
find a consistent results that code is a critical building block for
generalization far beyond coding tasks and improvements to code quality have an
outsized impact across all tasks. In particular, compared to text-only
pre-training, the addition of code results in up to relative increase of 8.2%
in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement
in generative win-rates, and a 12x boost in code performance respectively. Our
work suggests investments in code quality and preserving code during
pre-training have positive impacts.