ChatPaper.aiChatPaper

Predicción de Rendimiento para Sistemas de Gran Escala mediante Regresión Texto a Texto

Performance Prediction for Large Systems via Text-to-Text Regression

June 26, 2025
Autores: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI

Resumen

En muchas industrias, predecir los resultados de métricas en sistemas grandes es un problema fundamental, impulsado principalmente por la regresión tabular tradicional. Sin embargo, estos métodos tienen dificultades con datos de sistemas complejos en entornos reales, como archivos de configuración o registros del sistema, donde la ingeniería de características a menudo no es factible. Proponemos la regresión texto-a-texto como una alternativa general y escalable. Para predecir la eficiencia de recursos en Borg, el masivo sistema de programación de clústeres de computación de Google, un modelo codificador-decodificador de 60 millones de parámetros, entrenado desde una inicialización aleatoria, alcanza una correlación de rangos cercana a la perfección de 0.99 (0.9 en promedio) en toda la flota, y un error cuadrático medio 100 veces menor que los enfoques tabulares. El modelo también se adapta fácilmente a nuevas tareas con solo 500 ejemplos de pocas muestras y captura las densidades de distribuciones de resultados complejas. Los estudios de ablación destacan la importancia de utilizar codificadores, aumentar la longitud de la secuencia y la cuantificación inherente de incertidumbre del modelo. Estos hallazgos allanan el camino para simuladores universales de resultados del mundo real.
English
In many industries, predicting metric outcomes of large systems is a fundamental problem, driven largely by traditional tabular regression. However, such methods struggle on complex systems data in the wild such as configuration files or system logs, where feature engineering is often infeasible. We propose text-to-text regression as a general, scalable alternative. For predicting resource efficiency on Borg, Google's massive compute cluster scheduling system, a 60M parameter encoder-decoder, trained from random initialization, achieves up to a near perfect 0.99 (0.9 average) rank correlation across the entire fleet, and 100x lower MSE than tabular approaches. The model also easily adapts to new tasks in only 500 few-shot examples and captures the densities of complex outcome distributions. Ablation studies highlight the importance of using encoders, increasing sequence length, and the model's inherent uncertainty quantification. These findings pave the way for universal simulators of real-world outcomes.
PDF31June 30, 2025