FoNE: Incorporação Precisas de Números de Único Token por meio de Recursos de Fourier
FoNE: Precise Single-Token Number Embeddings via Fourier Features
February 13, 2025
Autores: Tianyi Zhou, Deqing Fu, Mahdi Soltanolkotabi, Robin Jia, Vatsal Sharan
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) geralmente representam números usando múltiplos tokens, o que exige que o modelo agregue esses tokens para interpretar valores numéricos. Essa fragmentação torna o treinamento e a inferência menos eficientes e afeta negativamente o desempenho do modelo em tarefas relacionadas a números. Inspirados pela observação de que LLMs pré-treinados aprendem internamente características semelhantes às de Fourier para tokens numéricos, propomos o Fourier Number Embedding (FoNE), um método inovador que mapeia diretamente números no espaço de incorporação com suas características de Fourier. O FoNE codifica cada número como um único token com apenas duas dimensões de incorporação por dígito, capturando efetivamente valores numéricos sem fragmentação. Essa representação compacta acelera tanto o treinamento quanto a inferência. Em comparação com as incorporações tradicionais de subpalavras e dígitos, o FoNE não apenas reduz a sobrecarga computacional, mas também alcança maior precisão em várias tarefas numéricas, incluindo adição, subtração e multiplicação. Na adição decimal de 6 dígitos, o FoNE requer 64 vezes menos dados para atingir 99% de precisão do que as incorporações de subpalavras e dígitos, enquanto usa 3 vezes e 6 vezes menos tokens por número, respectivamente. Além disso, o FoNE é o único método que alcança 100% de precisão em mais de 100.000 exemplos de teste para adição, subtração e multiplicação. Os códigos e visualizações estão disponíveis em https://fouriernumber.github.io/.
English
Large Language Models (LLMs) typically represent numbers using multiple
tokens, which requires the model to aggregate these tokens to interpret
numerical values. This fragmentation makes both training and inference less
efficient and adversely affects the model's performance on number-related
tasks. Inspired by the observation that pre-trained LLMs internally learn
Fourier-like features for number tokens, we propose Fourier Number Embedding
(FoNE), a novel method that directly maps numbers into the embedding space with
their Fourier features. FoNE encodes each number as a single token with only
two embedding dimensions per digit, effectively capturing numerical values
without fragmentation. This compact representation accelerates both training
and inference. Compared to traditional subword and digit-wise embeddings, FoNE
not only reduces computational overhead but also achieves higher accuracy
across various numerical tasks including addition, subtraction and
multiplication. On 6-digit decimal addition, FoNE requires 64times less data
to achieve 99% accuracy than subword and digit-wise embeddings while using
3times and 6times fewer tokens per number, respectively. Furthermore,
FoNE is the only method that yields 100% accuracy on over 100,000 test examples
for addition, subtraction, and multiplication. The codes and visualization are
available at https://fouriernumber.github.io/.Summary
AI-Generated Summary