Pion: Un optimizador que preserva el espectro mediante transformación de equivalencia ortogonal

Resumen

Presentamos Pion, un optimizador que preserva el espectro para el entrenamiento de modelos de lenguaje de gran escala basado en transformaciones de equivalencia ortogonal. A diferencia de optimizadores aditivos como Adam y Muon, Pion actualiza cada matriz de pesos mediante transformaciones ortogonales por izquierda y por derecha, preservando sus valores singulares durante todo el entrenamiento. Esto genera un mecanismo de optimización que modula la geometría de las matrices de pesos mientras mantiene fija su norma espectral. Derivamos la regla de actualización de Pion, examinamos sistemáticamente sus opciones de diseño y analizamos su comportamiento de convergencia junto con varias propiedades clave. Los resultados empíricos muestran que Pion constituye una alternativa estable y competitiva frente a los optimizadores estándar tanto para el preentrenamiento como para el ajuste fino de modelos de lenguaje de gran escala.

English

We introduce Pion, a spectrum-preserving optimizer for large language model (LLM) training based on orthogonal equivalence transformation. Unlike additive optimizers such as Adam and Muon, Pion updates each weight matrix through left and right orthogonal transformations, preserving its singular values throughout training. This yields an optimization mechanism that modulates the geometry of weight matrices while keeping their spectral norm fixed. We derive the Pion update rule, systematically examine its design choices, and analyze its convergence behavior along with several key properties. Empirical results show that Pion offers a stable and competitive alternative to standard optimizers for both LLM pretraining and finetuning.

Pion: Un optimizador que preserva el espectro mediante transformación de equivalencia ortogonal

Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

Resumen

Support