Taakprestaties voorspellen met contextbewuste schaalwetten
Predicting Task Performance with Context-aware Scaling Laws
October 16, 2025
Auteurs: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
cs.AI
Samenvatting
Schaalwetten hebben ons begrip van grote taalmodellen getransformeerd door
upstream metrieken zoals kruisentropieverlies te koppelen aan ontwerpfactoren zoals
modelgrootte, trainingsdata en rekenkracht. Deze conventionele wetten slagen er echter niet in
om downstream taakprestaties vast te leggen, waar context een cruciale rol speelt. In
dit werk stellen we een eenvoudig, interpreteerbaar raamwerk voor dat downstream
prestaties gezamenlijk modelleert als een functie van de trainingsrekenkracht en de
geboden context. We valideren ons raamwerk empirisch door het aan te passen op de
geobserveerde downstream prestaties van extended-context varianten van Llama-2-7B en
Llama-2-13B over 65.500 unieke instanties verspreid over drie taken: rekenkundig redeneren,
gezond verstand redeneren en machinaal vertalen. Onze resultaten tonen aan dat ons raamwerk
in-distribution downstream prestaties nauwkeurig modelleert, generaliseert over drie ordes van grootte in trainingsrekenkracht,
en betrouwbaar prestaties extrapoleert naarmate de hoeveelheid context toeneemt. Deze
bevindingen bieden waardevolle inzichten in de wisselwerking tussen trainingsrekenkracht
en contextgebruik, en bieden richtlijnen voor het ontwerpen van efficiëntere
lang-context LLM's voor diverse downstream taken. Onze code is beschikbaar op
https://github.com/wang-research-lab/context-scaling.
English
Scaling laws have transformed our understanding of large language models by
linking upstream metrics like cross-entropy loss to design factors such as
model size, training data, and compute. However, these conventional laws fail
to capture downstream task performance, where context plays a critical role. In
this work, we propose a straightforward, interpretable framework that jointly
models downstream performance as a function of the training compute and the
provided context. We empirically validate our framework by fitting it on the
observed downstream performance of extended-context variants of Llama-2-7B and
Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic
reasoning, common sense reasoning, and machine translation. Our results
demonstrate that our framework accurately models in-distribution downstream
performance, generalizes across three orders of magnitude in training compute,
and reliably extrapolates performance as the amount of context increases. These
findings offer valuable insights into the interplay between training compute
and context utilization, providing guidance for designing more efficient
long-context LLMs for diverse downstream tasks. Our code is available at
https://github.com/wang-research-lab/context-scaling.