Prestatievoorspelling voor grote systemen via tekst-naar-tekstregressie
Performance Prediction for Large Systems via Text-to-Text Regression
June 26, 2025
Auteurs: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI
Samenvatting
In veel sectoren is het voorspellen van metrische uitkomsten van grote systemen een fundamenteel probleem, dat voornamelijk wordt aangepakt met traditionele tabulaire regressie. Dergelijke methoden hebben echter moeite met complexe systeemgegevens in de praktijk, zoals configuratiebestanden of systeemlogboeken, waar feature engineering vaak onuitvoerbaar is. Wij stellen tekst-naar-tekst regressie voor als een algemeen, schaalbaar alternatief. Voor het voorspellen van resource-efficiëntie op Borg, het enorme compute-cluster schedulingsysteem van Google, bereikt een encoder-decoder model met 60M parameters, getraind vanaf een willekeurige initialisatie, een bijna perfecte rankcorrelatie van 0.99 (gemiddeld 0.9) over de hele vloot, en een 100x lagere MSE dan tabulaire benaderingen. Het model past zich ook gemakkelijk aan aan nieuwe taken met slechts 500 few-shot voorbeelden en vangt de dichtheden van complexe uitkomstdistributies. Ablatiestudies benadrukken het belang van het gebruik van encoders, het vergroten van de sequentielengte, en de inherente onzekerheidskwantificering van het model. Deze bevindingen banen de weg voor universele simulatoren van uitkomsten in de echte wereld.
English
In many industries, predicting metric outcomes of large systems is a
fundamental problem, driven largely by traditional tabular regression. However,
such methods struggle on complex systems data in the wild such as configuration
files or system logs, where feature engineering is often infeasible. We propose
text-to-text regression as a general, scalable alternative. For predicting
resource efficiency on Borg, Google's massive compute cluster scheduling
system, a 60M parameter encoder-decoder, trained from random initialization,
achieves up to a near perfect 0.99 (0.9 average) rank correlation across the
entire fleet, and 100x lower MSE than tabular approaches. The model also easily
adapts to new tasks in only 500 few-shot examples and captures the densities of
complex outcome distributions. Ablation studies highlight the importance of
using encoders, increasing sequence length, and the model's inherent
uncertainty quantification. These findings pave the way for universal
simulators of real-world outcomes.