Характер математического моделирования и вероятностная оптимизация Инженерия в Генеративном ИИ

Аннотация

В данной статье мы представляем глубокий анализ математических постановок задач и вероятностных оптимизационных исследований для некоторых ключевых компонентов модели Трансформера в области генеративного искусственного интеллекта. Мы исследуем и обсуждаем потенциальные улучшения для современных методов в некоторых ключевых технологиях генеративных моделей искусственного интеллекта с точки зрения алгоритмической и вероятностной оптимизации. В частности, мы представляем оптимальное решение для кодирования подслов (SWE) на основе аналогичных начальных настроек, как у алгоритма кодирования байт-пар (BPE) в [9], с аналогичными целями, как у подхода WordPiece в [28, 31], для максимизации правдоподобия обучающих данных. Мы также представляем метод оптимизации перекрестной энтропии для оптимизации гиперпараметров модели word2vec [17]. Кроме того, мы предлагаем факторизованное сочетание вращающегося позиционного кодирования (RoPE) [32] и внимания с линейными смещениями (ALiBi) [23] с гармонической последовательностью. Мы также представляем вероятностный метод FlashAttention [6, 7] (PrFlashAttention) с вероятностным распределением по блочным расстояниям в матрице для определения, какой блок вероятнее всего участвует в данном раунде вычисления внимания, сохраняя при этом нижний треугольник тензора для авторегрессионных языковых моделей путем изменения формы тензоров. Наконец, мы представляем ступенчатую адаптивную квантизацию (SAQ) кеша ключ-значение (KV) для многозапросного внимания (MQA) на основе представленной в [16] структуры для постепенного ухудшения квантизации при достижении приемлемого качества модели и экономии затрат.

English

In this paper, we give an in-depth analysis on the mathematical problem formulations and the probabilistic optimization explorations for some of the key components in Transformer model [33] in the field of generative AI. We explore and discuss some potential further enhancement for current state of the art methods for some key underlying technologies of generative AI models from algorithmic and probabilistic optimization perspective. In particular, we present an optimal solution for sub-word encoding (SWE) based on similar initial settings as that of byte-pair encoding (BPE) algorithm in [9] with similar objectives as that of WordPiece approach in [28, 31] to maximize the likelihood of the training data. We also present cross entropy optimization method to optimize hyperparameters for word2vec model [17]. In addition, we propose a factored combination of rotary positional encoding (RoPE) [32] and attention with linear biases (ALiBi) [23] with a harmonic series. We also present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a probability distribution over block distances in the matrix to decide which block is likely to participate in a given round of attention computation while maintaining the lower triangle shape of the tensor for autoregressive language models by re-shaping the tensors. Finally, we present staircase adaptive quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA) based on the framework presented in [16] to have gradual quantization degradation while achieving reasonable model quality and cost savings.

Характер математического моделирования и вероятностная оптимизация Инженерия в Генеративном ИИ

The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI

Аннотация

Support