ChatPaper.aiChatPaper

μLO: Rechen-effiziente Meta-Generalisierung von gelernten Optimierern

μLO: Compute-Efficient Meta-Generalization of Learned Optimizers

May 31, 2024
Autoren: Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky
cs.AI

Zusammenfassung

Gelernte Optimierer (LOs) können die Trainingszeit von neuronalen Netzwerken signifikant reduzieren und somit die Trainingskosten erheblich senken. Allerdings leiden sie oft unter einer schlechten Meta-Generalisierung, insbesondere bei der Schulung von Netzwerken, die größer sind als die während des Meta-Trainings gesehenen. Um dies zu lösen, verwenden wir die kürzlich vorgeschlagene Maximal Update Parametrisierung (muP), die eine Generalisierung der Optimierer-Hyperparameter von kleineren auf größere Modelle ohne vorheriges Training ermöglicht. Wir erweitern die muP-Theorie auf gelernte Optimierer und behandeln das Meta-Trainingsproblem als die Suche nach dem gelernten Optimierer unter muP. Unsere Evaluation zeigt, dass LOs, die mit muP meta-trainiert wurden, die Meta-Generalisierung im Vergleich zu LOs, die unter Standardparametrisierung (SP) trainiert wurden, erheblich verbessern. Insbesondere erreicht unser bester muLO, der für 103 GPU-Stunden trainiert wurde, bei Anwendung auf Modelle mit großer Breite oder übertrifft die Leistung von VeLO, dem größten öffentlich verfügbaren gelernten Optimierer, der mit 4000 TPU-Monaten an Rechenleistung meta-trainiert wurde. Darüber hinaus zeigen muLOs eine bessere Generalisierung als ihre SP-Gegenstücke für tiefere Netzwerke und für deutlich längere Trainingszeiträume (25-mal länger) als die während des Meta-Trainings beobachteten.
English
Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they often suffer from poor meta-generalization, especially when training networks larger than those seen during meta-training. To address this, we use the recently proposed Maximal Update Parametrization (muP), which allows zero-shot generalization of optimizer hyperparameters from smaller to larger models. We extend muP theory to learned optimizers, treating the meta-training problem as finding the learned optimizer under muP. Our evaluation shows that LOs meta-trained with muP substantially improve meta-generalization as compared to LOs trained under standard parametrization (SP). Notably, when applied to large-width models, our best muLO, trained for 103 GPU-hours, matches or exceeds the performance of VeLO, the largest publicly available learned optimizer, meta-trained with 4000 TPU-months of compute. Moreover, muLOs demonstrate better generalization than their SP counterparts to deeper networks and to much longer training horizons (25 times longer) than those seen during meta-training.

Summary

AI-Generated Summary

PDF130December 12, 2024