Adam-mini: Usa menos tasas de aprendizaje para obtener másAdam-mini: Use Fewer Learning Rates To Gain More
Proponemos Adam-mini, un optimizador que logra un rendimiento igual o mejor que AdamW con una huella de memoria entre un 45% y un 50% menor. Adam-mini reduce la memoria disminuyendo los recursos de tasa de aprendizaje en Adam (es decir, 1/v). Descubrimos que geq 90% de estas tasas de aprendizaje en v podrían eliminarse sin perjuicio si (1) particionamos cuidadosamente los parámetros en bloques siguiendo nuestro principio propuesto sobre la estructura del Hessiano; (2) asignamos una única pero buena tasa de aprendizaje a cada bloque de parámetros. Además, encontramos que, para cada uno de estos bloques de parámetros, existe una única tasa de aprendizaje de alta calidad que puede superar a Adam, siempre que se disponga de recursos suficientes para encontrarla. Luego, proporcionamos una forma rentable de encontrar buenas tasas de aprendizaje y proponemos Adam-mini. Empíricamente, verificamos que Adam-mini tiene un rendimiento igual o mejor que AdamW en varios modelos de lenguaje que van desde 125M hasta 7B para pre-entrenamiento, ajuste fino supervisado y RLHF. La reducida huella de memoria de Adam-mini también alivia la sobrecarga de comunicación entre GPUs y CPUs, aumentando así el rendimiento. Por ejemplo, Adam-mini logra un 49.6% más de rendimiento que AdamW al pre-entrenar Llama2-7B en 2 veces GPUs A800-80GB, lo que ahorra un 33% del tiempo de reloj en el pre-entrenamiento.