ChatPaper.aiChatPaper

Previsão de Desempenho para Sistemas de Grande Escala por meio de Regressão Texto-para-Texto

Performance Prediction for Large Systems via Text-to-Text Regression

June 26, 2025
Autores: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI

Resumo

Em muitas indústrias, prever resultados métricos de sistemas complexos é um problema fundamental, impulsionado principalmente por métodos tradicionais de regressão tabular. No entanto, tais métodos enfrentam dificuldades com dados de sistemas complexos no mundo real, como arquivos de configuração ou logs de sistema, onde a engenharia de características muitas vezes é inviável. Propomos a regressão texto-a-texto como uma alternativa geral e escalável. Para prever a eficiência de recursos no Borg, o sistema massivo de agendamento de clusters de computação do Google, um modelo codificador-decodificador de 60 milhões de parâmetros, treinado a partir de inicialização aleatória, alcança uma correlação de rank quase perfeita de 0,99 (0,9 em média) em toda a frota, e um erro quadrático médio 100 vezes menor do que abordagens tabulares. O modelo também se adapta facilmente a novas tarefas com apenas 500 exemplos de poucos disparos e captura as densidades de distribuições complexas de resultados. Estudos de ablação destacam a importância do uso de codificadores, do aumento do comprimento da sequência e da quantificação inerente de incerteza do modelo. Essas descobertas abrem caminho para simuladores universais de resultados do mundo real.
English
In many industries, predicting metric outcomes of large systems is a fundamental problem, driven largely by traditional tabular regression. However, such methods struggle on complex systems data in the wild such as configuration files or system logs, where feature engineering is often infeasible. We propose text-to-text regression as a general, scalable alternative. For predicting resource efficiency on Borg, Google's massive compute cluster scheduling system, a 60M parameter encoder-decoder, trained from random initialization, achieves up to a near perfect 0.99 (0.9 average) rank correlation across the entire fleet, and 100x lower MSE than tabular approaches. The model also easily adapts to new tasks in only 500 few-shot examples and captures the densities of complex outcome distributions. Ablation studies highlight the importance of using encoders, increasing sequence length, and the model's inherent uncertainty quantification. These findings pave the way for universal simulators of real-world outcomes.
PDF52June 30, 2025