Prestatievoorspelling voor grote systemen via tekst-naar-tekstregressie

Samenvatting

In veel sectoren is het voorspellen van metrische uitkomsten van grote systemen een fundamenteel probleem, dat voornamelijk wordt aangepakt met traditionele tabulaire regressie. Dergelijke methoden hebben echter moeite met complexe systeemgegevens in de praktijk, zoals configuratiebestanden of systeemlogboeken, waar feature engineering vaak onuitvoerbaar is. Wij stellen tekst-naar-tekst regressie voor als een algemeen, schaalbaar alternatief. Voor het voorspellen van resource-efficiëntie op Borg, het enorme compute-cluster schedulingsysteem van Google, bereikt een encoder-decoder model met 60M parameters, getraind vanaf een willekeurige initialisatie, een bijna perfecte rankcorrelatie van 0.99 (gemiddeld 0.9) over de hele vloot, en een 100x lagere MSE dan tabulaire benaderingen. Het model past zich ook gemakkelijk aan aan nieuwe taken met slechts 500 few-shot voorbeelden en vangt de dichtheden van complexe uitkomstdistributies. Ablatiestudies benadrukken het belang van het gebruik van encoders, het vergroten van de sequentielengte, en de inherente onzekerheidskwantificering van het model. Deze bevindingen banen de weg voor universele simulatoren van uitkomsten in de echte wereld.

English

In many industries, predicting metric outcomes of large systems is a fundamental problem, driven largely by traditional tabular regression. However, such methods struggle on complex systems data in the wild such as configuration files or system logs, where feature engineering is often infeasible. We propose text-to-text regression as a general, scalable alternative. For predicting resource efficiency on Borg, Google's massive compute cluster scheduling system, a 60M parameter encoder-decoder, trained from random initialization, achieves up to a near perfect 0.99 (0.9 average) rank correlation across the entire fleet, and 100x lower MSE than tabular approaches. The model also easily adapts to new tasks in only 500 few-shot examples and captures the densities of complex outcome distributions. Ablation studies highlight the importance of using encoders, increasing sequence length, and the model's inherent uncertainty quantification. These findings pave the way for universal simulators of real-world outcomes.

Prestatievoorspelling voor grote systemen via tekst-naar-tekstregressie

Performance Prediction for Large Systems via Text-to-Text Regression

Samenvatting

Support