Predicción de Rendimiento para Sistemas de Gran Escala mediante Regresión Texto a Texto
Performance Prediction for Large Systems via Text-to-Text Regression
June 26, 2025
Autores: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI
Resumen
En muchas industrias, predecir los resultados de métricas en sistemas grandes es un problema fundamental, impulsado principalmente por la regresión tabular tradicional. Sin embargo, estos métodos tienen dificultades con datos de sistemas complejos en entornos reales, como archivos de configuración o registros del sistema, donde la ingeniería de características a menudo no es factible. Proponemos la regresión texto-a-texto como una alternativa general y escalable. Para predecir la eficiencia de recursos en Borg, el masivo sistema de programación de clústeres de computación de Google, un modelo codificador-decodificador de 60 millones de parámetros, entrenado desde una inicialización aleatoria, alcanza una correlación de rangos cercana a la perfección de 0.99 (0.9 en promedio) en toda la flota, y un error cuadrático medio 100 veces menor que los enfoques tabulares. El modelo también se adapta fácilmente a nuevas tareas con solo 500 ejemplos de pocas muestras y captura las densidades de distribuciones de resultados complejas. Los estudios de ablación destacan la importancia de utilizar codificadores, aumentar la longitud de la secuencia y la cuantificación inherente de incertidumbre del modelo. Estos hallazgos allanan el camino para simuladores universales de resultados del mundo real.
English
In many industries, predicting metric outcomes of large systems is a
fundamental problem, driven largely by traditional tabular regression. However,
such methods struggle on complex systems data in the wild such as configuration
files or system logs, where feature engineering is often infeasible. We propose
text-to-text regression as a general, scalable alternative. For predicting
resource efficiency on Borg, Google's massive compute cluster scheduling
system, a 60M parameter encoder-decoder, trained from random initialization,
achieves up to a near perfect 0.99 (0.9 average) rank correlation across the
entire fleet, and 100x lower MSE than tabular approaches. The model also easily
adapts to new tasks in only 500 few-shot examples and captures the densities of
complex outcome distributions. Ablation studies highlight the importance of
using encoders, increasing sequence length, and the model's inherent
uncertainty quantification. These findings pave the way for universal
simulators of real-world outcomes.