Vorhersage der Aufgabenleistung mit kontextbewussten Skalierungsgesetzen
Predicting Task Performance with Context-aware Scaling Laws
October 16, 2025
papers.authors: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
cs.AI
papers.abstract
Skalierungsgesetze haben unser Verständnis von großen Sprachmodellen revolutioniert, indem sie Upstream-Metriken wie den Kreuzentropieverlust mit Gestaltungsfaktoren wie Modellgröße, Trainingsdaten und Rechenleistung verknüpfen. Diese herkömmlichen Gesetze erfassen jedoch nicht die Leistung bei Downstream-Aufgaben, bei denen der Kontext eine entscheidende Rolle spielt. In dieser Arbeit schlagen wir ein einfaches, interpretierbares Framework vor, das die Downstream-Leistung gemeinsam als Funktion der Trainingsrechenleistung und des bereitgestellten Kontexts modelliert. Wir validieren unser Framework empirisch, indem wir es auf die beobachtete Downstream-Leistung von erweiterten Kontextvarianten von Llama-2-7B und Llama-2-13B über 65.500 einzigartige Instanzen hinweg anpassen, die drei Aufgaben umfassen: arithmetisches Denken, gesunder Menschenverstand und maschinelle Übersetzung. Unsere Ergebnisse zeigen, dass unser Framework die In-Distribution-Downstream-Leistung genau modelliert, über drei Größenordnungen der Trainingsrechenleistung hinweg generalisiert und die Leistung zuverlässig extrapoliert, wenn die Menge des Kontexts zunimmt. Diese Erkenntnisse bieten wertvolle Einblicke in das Zusammenspiel zwischen Trainingsrechenleistung und Kontextnutzung und liefern Leitlinien für die Gestaltung effizienterer Langkontext-LLMs für verschiedene Downstream-Aufgaben. Unser Code ist unter https://github.com/wang-research-lab/context-scaling verfügbar.
English
Scaling laws have transformed our understanding of large language models by
linking upstream metrics like cross-entropy loss to design factors such as
model size, training data, and compute. However, these conventional laws fail
to capture downstream task performance, where context plays a critical role. In
this work, we propose a straightforward, interpretable framework that jointly
models downstream performance as a function of the training compute and the
provided context. We empirically validate our framework by fitting it on the
observed downstream performance of extended-context variants of Llama-2-7B and
Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic
reasoning, common sense reasoning, and machine translation. Our results
demonstrate that our framework accurately models in-distribution downstream
performance, generalizes across three orders of magnitude in training compute,
and reliably extrapolates performance as the amount of context increases. These
findings offer valuable insights into the interplay between training compute
and context utilization, providing guidance for designing more efficient
long-context LLMs for diverse downstream tasks. Our code is available at
https://github.com/wang-research-lab/context-scaling.