Previsão de Desempenho para Sistemas de Grande Escala por meio de Regressão Texto-para-Texto
Performance Prediction for Large Systems via Text-to-Text Regression
June 26, 2025
Autores: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI
Resumo
Em muitas indústrias, prever resultados métricos de sistemas complexos é um problema fundamental, impulsionado principalmente por métodos tradicionais de regressão tabular. No entanto, tais métodos enfrentam dificuldades com dados de sistemas complexos no mundo real, como arquivos de configuração ou logs de sistema, onde a engenharia de características muitas vezes é inviável. Propomos a regressão texto-a-texto como uma alternativa geral e escalável. Para prever a eficiência de recursos no Borg, o sistema massivo de agendamento de clusters de computação do Google, um modelo codificador-decodificador de 60 milhões de parâmetros, treinado a partir de inicialização aleatória, alcança uma correlação de rank quase perfeita de 0,99 (0,9 em média) em toda a frota, e um erro quadrático médio 100 vezes menor do que abordagens tabulares. O modelo também se adapta facilmente a novas tarefas com apenas 500 exemplos de poucos disparos e captura as densidades de distribuições complexas de resultados. Estudos de ablação destacam a importância do uso de codificadores, do aumento do comprimento da sequência e da quantificação inerente de incerteza do modelo. Essas descobertas abrem caminho para simuladores universais de resultados do mundo real.
English
In many industries, predicting metric outcomes of large systems is a
fundamental problem, driven largely by traditional tabular regression. However,
such methods struggle on complex systems data in the wild such as configuration
files or system logs, where feature engineering is often infeasible. We propose
text-to-text regression as a general, scalable alternative. For predicting
resource efficiency on Borg, Google's massive compute cluster scheduling
system, a 60M parameter encoder-decoder, trained from random initialization,
achieves up to a near perfect 0.99 (0.9 average) rank correlation across the
entire fleet, and 100x lower MSE than tabular approaches. The model also easily
adapts to new tasks in only 500 few-shot examples and captures the densities of
complex outcome distributions. Ablation studies highlight the importance of
using encoders, increasing sequence length, and the model's inherent
uncertainty quantification. These findings pave the way for universal
simulators of real-world outcomes.