Adam-mini: Используйте меньшее количество скоростей обучения для получения большего выигрыша.Adam-mini: Use Fewer Learning Rates To Gain More
Мы предлагаем Adam-mini, оптимизатор, который достигает такой же или даже лучшей производительности, чем AdamW, с уменьшением объема памяти на 45% до 50%. Adam-mini уменьшает использование памяти, сокращая ресурсы скорости обучения в Adam (т.е. 1/v). Мы обнаружили, что более 90% этих скоростей обучения в v могут быть безопасно удалены, если (1) тщательно разделить параметры на блоки в соответствии с нашим предложенным принципом структуры гессиана; (2) назначить одну, но хорошую скорость обучения для каждого блока параметров. Мы также обнаружили, что для каждого из этих блоков параметров существует одна высококачественная скорость обучения, которая может превзойти Adam, при условии наличия достаточных ресурсов для ее поиска. Затем мы предлагаем один эффективный способ найти хорошие скорости обучения и предлагаем Adam-mini. Эмпирически мы проверяем, что Adam-mini работает так же или лучше, чем AdamW, на различных языковых моделях от 125M до 7B для предварительного обучения, надзорного дообучения и RLHF. Уменьшенный объем памяти Adam-mini также снижает накладные расходы на коммуникацию между GPU и ЦП, тем самым увеличивая пропускную способность. Например, Adam-mini достигает на 49.6% большей пропускной способности, чем AdamW, при предварительном обучении Llama2-7B на 2 раза A800-80GB GPU, что экономит 33% времени на предварительное обучение.