La Naturaleza del Modelado Matemático y la Optimización Probabilística en la Ingeniería de la IA Generativa
The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI
October 24, 2024
Autores: Fulu Li
cs.AI
Resumen
En este artículo, realizamos un análisis detallado sobre las formulaciones de problemas matemáticos y las exploraciones de optimización probabilística para algunos de los componentes clave en el modelo Transformer [33] en el campo de la IA generativa. Exploramos y discutimos algunas posibles mejoras adicionales para los métodos actuales de vanguardia para algunas tecnologías subyacentes clave de los modelos de IA generativa desde una perspectiva de optimización algorítmica y probabilística. En particular, presentamos una solución óptima para la codificación de subpalabras (SWE) basada en configuraciones iniciales similares a las del algoritmo de codificación de pares de bytes (BPE) en [9] con objetivos similares a los del enfoque WordPiece en [28, 31] para maximizar la verosimilitud de los datos de entrenamiento. También presentamos un método de optimización de entropía cruzada para optimizar hiperparámetros para el modelo word2vec [17]. Además, proponemos una combinación factorizada de la codificación posicional rotativa (RoPE) [32] y atención con sesgos lineales (ALiBi) [23] con una serie armónica. También presentamos un método probabilístico FlashAttention [6, 7] (PrFlashAttention) con una distribución de probabilidad sobre las distancias de bloque en la matriz para decidir qué bloque es probable que participe en una ronda dada de cálculo de atención mientras se mantiene la forma de triángulo inferior del tensor para modelos de lenguaje autoregresivos mediante el reajuste de los tensores. Finalmente, presentamos una cuantificación adaptativa escalonada (SAQ) de la caché clave-valor (KV) para atención multi-consulta (MQA) basada en el marco presentado en [16] para tener una degradación gradual de la cuantificación mientras se logra una calidad de modelo razonable y ahorros de costos.
English
In this paper, we give an in-depth analysis on the mathematical problem
formulations and the probabilistic optimization explorations for some of the
key components in Transformer model [33] in the field of generative AI. We
explore and discuss some potential further enhancement for current state of the
art methods for some key underlying technologies of generative AI models from
algorithmic and probabilistic optimization perspective. In particular, we
present an optimal solution for sub-word encoding (SWE) based on similar
initial settings as that of byte-pair encoding (BPE) algorithm in [9] with
similar objectives as that of WordPiece approach in [28, 31] to maximize the
likelihood of the training data. We also present cross entropy optimization
method to optimize hyperparameters for word2vec model [17]. In addition, we
propose a factored combination of rotary positional encoding (RoPE) [32] and
attention with linear biases (ALiBi) [23] with a harmonic series. We also
present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a
probability distribution over block distances in the matrix to decide which
block is likely to participate in a given round of attention computation while
maintaining the lower triangle shape of the tensor for autoregressive language
models by re-shaping the tensors. Finally, we present staircase adaptive
quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA)
based on the framework presented in [16] to have gradual quantization
degradation while achieving reasonable model quality and cost savings.Summary
AI-Generated Summary