Prédiction de performance pour les grands systèmes via la régression texte-à-texte

Résumé

Dans de nombreuses industries, la prédiction des résultats métriques de grands systèmes constitue un problème fondamental, principalement abordé par la régression tabulaire traditionnelle. Cependant, ces méthodes peinent à traiter les données complexes des systèmes en conditions réelles, telles que les fichiers de configuration ou les journaux système, où l'ingénierie des caractéristiques est souvent irréalisable. Nous proposons la régression texte-à-texte comme alternative générale et évolutive. Pour prédire l'efficacité des ressources sur Borg, le système massif de planification de clusters de calcul de Google, un modèle encodeur-décodeur de 60 millions de paramètres, entraîné à partir d'une initialisation aléatoire, atteint une corrélation de rang quasi parfaite de 0,99 (0,9 en moyenne) sur l'ensemble de la flotte, et une erreur quadratique moyenne 100 fois inférieure à celle des approches tabulaires. Le modèle s'adapte également facilement à de nouvelles tâches avec seulement 500 exemples en apprentissage peu supervisé et capture les densités des distributions complexes des résultats. Les études d'ablation mettent en évidence l'importance de l'utilisation des encodeurs, de l'augmentation de la longueur des séquences et de la quantification intrinsèque de l'incertitude du modèle. Ces découvertes ouvrent la voie à des simulateurs universels des résultats du monde réel.

English

In many industries, predicting metric outcomes of large systems is a fundamental problem, driven largely by traditional tabular regression. However, such methods struggle on complex systems data in the wild such as configuration files or system logs, where feature engineering is often infeasible. We propose text-to-text regression as a general, scalable alternative. For predicting resource efficiency on Borg, Google's massive compute cluster scheduling system, a 60M parameter encoder-decoder, trained from random initialization, achieves up to a near perfect 0.99 (0.9 average) rank correlation across the entire fleet, and 100x lower MSE than tabular approaches. The model also easily adapts to new tasks in only 500 few-shot examples and captures the densities of complex outcome distributions. Ablation studies highlight the importance of using encoders, increasing sequence length, and the model's inherent uncertainty quantification. These findings pave the way for universal simulators of real-world outcomes.