Fairy2i: Treinamento de LLMs Complexos a partir de LLMs Reais com Todos os Parâmetros em {±1, ±i}

Resumo

Os modelos de linguagem de grande escala (LLMs) revolucionaram a inteligência artificial, mas suas enormes demandas de memória e computação exigem uma quantização agressiva, empurrando cada vez mais as representações para o limite teórico de um único bit. Embora os LLMs de valor complexo, como o iFairy, ofereçam uma oportunidade superior para representação de baixo bit em comparação com os homólogos de valor real, eles exigem treinamento a partir do zero, impedindo a utilização do vasto ecossistema de modelos base pré-treinados de valor real. Aqui apresentamos o Fairy2i, uma estrutura universal que transforma camadas pré-treinadas de valor real numa forma complexa de linearidade ampla equivalente, permitindo uma quantização extremamente baixa de bits enquanto reutiliza *checkpoints* existentes. Ao provar uma equivalência matemática sem perdas entre mapas reais e de linearidade ampla, convertemos *Transformers* padrão para o domínio complexo e empregamos um esquema de quantização consciente da fase com um *codebook* altamente eficiente das raízes quartas da unidade. Além disso, introduzimos um mecanismo de quantização residual recursiva que minimiza iterativamente o erro de quantização, permitindo que a inferência prossiga via acumulação eficiente e livre de multiplicação. Demonstramos que o Fairy2i restaura o desempenho do LLaMA-2 7B numa precisão efetiva de 2 bits para níveis quase comparáveis com as linhas de base de precisão total, superando significativamente os métodos state-of-the-art de quantização binária e ternária de valor real. Este trabalho preenche a lacuna entre a eficiência representacional da aritmética de valor complexo e a utilidade prática dos modelos pré-treinados, abrindo um novo caminho para inferência eficiente em *hardware* comercial.

English

Large language models (LLMs) have revolutionized artificial intelligence, yet their massive memory and computational demands necessitate aggressive quantization, increasingly pushing representations toward the theoretical limit of a single bit. While complex-valued LLMs, such as iFairy, offer a superior chance for low-bit representation compared to real-valued counterparts, they require training from scratch, preventing the utilization of the vast ecosystem of pre-trained real-valued foundation models. Here we present Fairy2i, a universal framework that transforms pre-trained real-valued layers into an equivalent widely-linear complex form, enabling extremely low-bit quantization while reusing existing checkpoints. By proving a lossless mathematical equivalence between real and widely-linear maps, we convert standard Transformers into the complex domain and employ a phase-aware quantization scheme with a highly efficient codebook of fourth roots of unity. Furthermore, we introduce a recursive residual quantization mechanism that iteratively minimizes quantization error, allowing inference to proceed via efficient multiplication-free accumulation. We demonstrate that Fairy2i restores the performance of LLaMA-2 7B at an effective 2-bit precision to levels nearly comparable with full-precision baselines, significantly outperforming state-of-the-art real-valued binary and ternary quantization methods. This work bridges the gap between the representational efficiency of complex-valued arithmetic and the practical utility of pre-trained models, paving a new way for efficient inference on commodity hardware.

Fairy2i: Treinamento de LLMs Complexos a partir de LLMs Reais com Todos os Parâmetros em {±1, ±i}

Fairy2i: Training Complex LLMs from Real LLMs with All Parameters in {pm 1, pm i}

Resumo

Support