Previsione delle Prestazioni per Sistemi di Grande Scala tramite Regressione Testo-Testo

Abstract

In molti settori, la previsione di metriche relative a sistemi di grandi dimensioni rappresenta un problema fondamentale, affrontato principalmente attraverso la regressione tabulare tradizionale. Tuttavia, tali metodi incontrano difficoltà con dati complessi provenienti da sistemi reali, come file di configurazione o log di sistema, dove l'ingegnerizzazione delle feature è spesso impraticabile. Proponiamo la regressione testo-testo come alternativa generale e scalabile. Per la previsione dell'efficienza delle risorse su Borg, il sistema di scheduling di cluster computazionali su larga scala di Google, un modello encoder-decoder da 60 milioni di parametri, addestrato partendo da un'inizializzazione casuale, raggiunge una correlazione di rango quasi perfetta di 0.99 (media di 0.9) sull'intera flotta e un errore quadratico medio (MSE) 100 volte inferiore rispetto agli approcci tabulari. Il modello si adatta facilmente a nuovi task con soli 500 esempi few-shot e cattura le densità di distribuzioni complesse dei risultati. Studi di ablazione evidenziano l'importanza dell'uso di encoder, dell'aumento della lunghezza delle sequenze e della quantificazione intrinseca dell'incertezza del modello. Questi risultati aprono la strada a simulatori universali di risultati del mondo reale.

English

In many industries, predicting metric outcomes of large systems is a fundamental problem, driven largely by traditional tabular regression. However, such methods struggle on complex systems data in the wild such as configuration files or system logs, where feature engineering is often infeasible. We propose text-to-text regression as a general, scalable alternative. For predicting resource efficiency on Borg, Google's massive compute cluster scheduling system, a 60M parameter encoder-decoder, trained from random initialization, achieves up to a near perfect 0.99 (0.9 average) rank correlation across the entire fleet, and 100x lower MSE than tabular approaches. The model also easily adapts to new tasks in only 500 few-shot examples and captures the densities of complex outcome distributions. Ablation studies highlight the importance of using encoders, increasing sequence length, and the model's inherent uncertainty quantification. These findings pave the way for universal simulators of real-world outcomes.

Previsione delle Prestazioni per Sistemi di Grande Scala tramite Regressione Testo-Testo

Performance Prediction for Large Systems via Text-to-Text Regression

Abstract

Support