Prédiction de performance pour les grands systèmes via la régression texte-à-texte
Performance Prediction for Large Systems via Text-to-Text Regression
June 26, 2025
Auteurs: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI
Résumé
Dans de nombreuses industries, la prédiction des résultats métriques de grands systèmes constitue un problème fondamental, principalement abordé par la régression tabulaire traditionnelle. Cependant, ces méthodes peinent à traiter les données complexes des systèmes en conditions réelles, telles que les fichiers de configuration ou les journaux système, où l'ingénierie des caractéristiques est souvent irréalisable. Nous proposons la régression texte-à-texte comme alternative générale et évolutive. Pour prédire l'efficacité des ressources sur Borg, le système massif de planification de clusters de calcul de Google, un modèle encodeur-décodeur de 60 millions de paramètres, entraîné à partir d'une initialisation aléatoire, atteint une corrélation de rang quasi parfaite de 0,99 (0,9 en moyenne) sur l'ensemble de la flotte, et une erreur quadratique moyenne 100 fois inférieure à celle des approches tabulaires. Le modèle s'adapte également facilement à de nouvelles tâches avec seulement 500 exemples en apprentissage peu supervisé et capture les densités des distributions complexes des résultats. Les études d'ablation mettent en évidence l'importance de l'utilisation des encodeurs, de l'augmentation de la longueur des séquences et de la quantification intrinsèque de l'incertitude du modèle. Ces découvertes ouvrent la voie à des simulateurs universels des résultats du monde réel.
English
In many industries, predicting metric outcomes of large systems is a
fundamental problem, driven largely by traditional tabular regression. However,
such methods struggle on complex systems data in the wild such as configuration
files or system logs, where feature engineering is often infeasible. We propose
text-to-text regression as a general, scalable alternative. For predicting
resource efficiency on Borg, Google's massive compute cluster scheduling
system, a 60M parameter encoder-decoder, trained from random initialization,
achieves up to a near perfect 0.99 (0.9 average) rank correlation across the
entire fleet, and 100x lower MSE than tabular approaches. The model also easily
adapts to new tasks in only 500 few-shot examples and captures the densities of
complex outcome distributions. Ablation studies highlight the importance of
using encoders, increasing sequence length, and the model's inherent
uncertainty quantification. These findings pave the way for universal
simulators of real-world outcomes.