Prevedere le Prestazioni nelle Attività con Leggi di Scalabilità Sensibili al Contesto
Predicting Task Performance with Context-aware Scaling Laws
October 16, 2025
Autori: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
cs.AI
Abstract
Le leggi di scala hanno trasformato la nostra comprensione dei modelli linguistici di grandi dimensioni collegando metriche a monte come la perdita di entropia incrociata a fattori di progettazione quali la dimensione del modello, i dati di addestramento e il calcolo. Tuttavia, queste leggi convenzionali non riescono a catturare le prestazioni nei compiti a valle, dove il contesto gioca un ruolo cruciale. In questo lavoro, proponiamo un framework semplice e interpretabile che modella congiuntamente le prestazioni a valle in funzione del calcolo di addestramento e del contesto fornito. Validiamo empiricamente il nostro framework adattandolo alle prestazioni osservate a valle delle varianti a contesto esteso di Llama-2-7B e Llama-2-13B su 65.500 istanze uniche che coprono tre compiti: ragionamento aritmetico, ragionamento di senso comune e traduzione automatica. I nostri risultati dimostrano che il nostro framework modella accuratamente le prestazioni a valle all'interno della distribuzione, generalizza su tre ordini di grandezza nel calcolo di addestramento e estrapola in modo affidabile le prestazioni all'aumentare della quantità di contesto. Questi risultati offrono preziose intuizioni sull'interazione tra calcolo di addestramento e utilizzo del contesto, fornendo indicazioni per progettare modelli linguistici di grandi dimensioni a contesto lungo più efficienti per una varietà di compiti a valle. Il nostro codice è disponibile all'indirizzo https://github.com/wang-research-lab/context-scaling.
English
Scaling laws have transformed our understanding of large language models by
linking upstream metrics like cross-entropy loss to design factors such as
model size, training data, and compute. However, these conventional laws fail
to capture downstream task performance, where context plays a critical role. In
this work, we propose a straightforward, interpretable framework that jointly
models downstream performance as a function of the training compute and the
provided context. We empirically validate our framework by fitting it on the
observed downstream performance of extended-context variants of Llama-2-7B and
Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic
reasoning, common sense reasoning, and machine translation. Our results
demonstrate that our framework accurately models in-distribution downstream
performance, generalizes across three orders of magnitude in training compute,
and reliably extrapolates performance as the amount of context increases. These
findings offer valuable insights into the interplay between training compute
and context utilization, providing guidance for designing more efficient
long-context LLMs for diverse downstream tasks. Our code is available at
https://github.com/wang-research-lab/context-scaling.