La scalatura prescrittiva rivela l'evoluzione delle capacità dei modelli linguistici.

Abstract

Per la distribuzione di modelli fondazionali, i professionisti necessitano sempre più di leggi di scaling prescrittive: dato un budget computazionale per il pre-addestramento, quale accuratezza downstream è raggiungibile con le moderne pratiche di post-addestramento, e quanto è stabile questa mappatura con l'evolversi del settore? Utilizzando valutazioni osservative su larga scala con 5k dati osservativi e 2k dati appena campionati sulle prestazioni dei modelli, stimiamo i confini delle capacità, ovvero i quantili condizionati elevati dei punteggi di benchmark in funzione del logaritmo dei FLOP di pre-addestramento, tramite regressione quantile smoothed con una parametrizzazione sigmoide monotona e saturante. Convalidiamo l'affidabilità temporale adattando il modello su generazioni di modelli precedenti e valutandolo su release successive. In varie attività, i confini stimati sono per lo più stabili, ad eccezione del ragionamento matematico che mostra un confine in costante avanzamento nel tempo. Estendiamo quindi il nostro approccio per analizzare la saturazione dipendente dal compito e per investigare gli spostamenti legati alla contaminazione nelle attività di ragionamento matematico. Infine, introduciamo un algoritmo efficiente che recupera le frontiere dei dati quasi complete utilizzando circa il 20% del budget di valutazione. Insieme, il nostro lavoro rilascia il Proteus 2k, il più recente dataset di valutazione delle prestazioni dei modelli, e introduce una metodologia pratica per tradurre i budget computazionali in aspettative di prestazione affidabili e per monitorare quando i confini delle capacità si spostano nel tempo.

English

For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.

La scalatura prescrittiva rivela l'evoluzione delle capacità dei modelli linguistici.

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Abstract

Support