Leistungsvorhersage für große Systeme durch Text-zu-Text-Regression
Performance Prediction for Large Systems via Text-to-Text Regression
June 26, 2025
Autoren: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI
Zusammenfassung
In vielen Branchen stellt die Vorhersage metrischer Ergebnisse großer Systeme ein grundlegendes Problem dar, das weitgehend durch traditionelle tabellarische Regression angetrieben wird. Solche Methoden stoßen jedoch bei komplexen Systemdaten in der Praxis, wie Konfigurationsdateien oder Systemprotokollen, an ihre Grenzen, wo die Merkmalsentwicklung oft nicht durchführbar ist. Wir schlagen Text-zu-Text-Regression als eine allgemeine, skalierbare Alternative vor. Für die Vorhersage der Ressourceneffizienz auf Borg, dem massiven Compute-Cluster-Schedulingsystem von Google, erreicht ein Encoder-Decoder-Modell mit 60 Millionen Parametern, das von einer zufälligen Initialisierung trainiert wurde, eine nahezu perfekte Rangkorrelation von bis zu 0,99 (im Durchschnitt 0,9) über die gesamte Flotte hinweg und einen 100-fach geringeren mittleren quadratischen Fehler (MSE) als tabellarische Ansätze. Das Modell passt sich auch leicht an neue Aufgaben mit nur 500 Few-Shot-Beispielen an und erfasst die Dichten komplexer Ergebnisverteilungen. Ablationsstudien unterstreichen die Bedeutung der Verwendung von Encodern, der Erhöhung der Sequenzlänge und der inhärenten Unsicherheitsquantifizierung des Modells. Diese Erkenntnisse ebnen den Weg für universelle Simulatoren realer Ergebnisse.
English
In many industries, predicting metric outcomes of large systems is a
fundamental problem, driven largely by traditional tabular regression. However,
such methods struggle on complex systems data in the wild such as configuration
files or system logs, where feature engineering is often infeasible. We propose
text-to-text regression as a general, scalable alternative. For predicting
resource efficiency on Borg, Google's massive compute cluster scheduling
system, a 60M parameter encoder-decoder, trained from random initialization,
achieves up to a near perfect 0.99 (0.9 average) rank correlation across the
entire fleet, and 100x lower MSE than tabular approaches. The model also easily
adapts to new tasks in only 500 few-shot examples and captures the densities of
complex outcome distributions. Ablation studies highlight the importance of
using encoders, increasing sequence length, and the model's inherent
uncertainty quantification. These findings pave the way for universal
simulators of real-world outcomes.