ChatPaper.aiChatPaper

Прогнозирование производительности крупных систем с помощью текстовой регрессии

Performance Prediction for Large Systems via Text-to-Text Regression

June 26, 2025
Авторы: Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song
cs.AI

Аннотация

Во многих отраслях прогнозирование метрических показателей крупных систем является фундаментальной задачей, которая в основном решается с помощью традиционной табличной регрессии. Однако такие методы сталкиваются с трудностями при работе со сложными системными данными, такими как конфигурационные файлы или системные логи, где разработка признаков часто оказывается невозможной. Мы предлагаем текстовую регрессию как универсальную и масштабируемую альтернативу. Для прогнозирования эффективности использования ресурсов в Borg, масштабной системе планирования вычислительных кластеров Google, модель с 60 миллионами параметров, обученная с нуля, достигает почти идеального коэффициента ранговой корреляции 0.99 (в среднем 0.9) для всего парка и в 100 раз меньшей среднеквадратичной ошибки по сравнению с табличными подходами. Модель также легко адаптируется к новым задачам всего на 500 примерах с малым количеством данных и точно воспроизводит плотности сложных распределений результатов. Абляционные исследования подчеркивают важность использования кодировщиков, увеличения длины последовательностей и встроенной оценки неопределенности модели. Эти результаты открывают путь к созданию универсальных симуляторов реальных исходов.
English
In many industries, predicting metric outcomes of large systems is a fundamental problem, driven largely by traditional tabular regression. However, such methods struggle on complex systems data in the wild such as configuration files or system logs, where feature engineering is often infeasible. We propose text-to-text regression as a general, scalable alternative. For predicting resource efficiency on Borg, Google's massive compute cluster scheduling system, a 60M parameter encoder-decoder, trained from random initialization, achieves up to a near perfect 0.99 (0.9 average) rank correlation across the entire fleet, and 100x lower MSE than tabular approaches. The model also easily adapts to new tasks in only 500 few-shot examples and captures the densities of complex outcome distributions. Ablation studies highlight the importance of using encoders, increasing sequence length, and the model's inherent uncertainty quantification. These findings pave the way for universal simulators of real-world outcomes.
PDF31June 30, 2025