Clark Hash: Quantização Esparsa sem Estado de Johnson-Lindenstrauss para Embeddings Neurais

Resumo

Clark Hash é um método compacto para armazenar incorporações neurais em menos espaço. Ele normaliza cada vetor do banco de dados, aplica uma projeção esparsa determinística de Johnson-Lindenstrauss com sinal, limita o resultado e armazena um código quantizado escalar de largura fixa. As consultas permanecem em ponto flutuante e são pontuadas em relação aos esboços armazenados. Na configuração padrão de incorporação de frases com 384 dimensões, o Clark Hash armazena um vetor de busca por cosseno em 48 bytes, em vez de 1536 bytes para armazenamento denso em f32. Isso representa uma redução de 32 vezes. O método não requer uma etapa de treinamento, codebooks aprendidos, rotações ou estatísticas do corpus antes que novos vetores possam ser armazenados. Descrevemos o codec, a implementação em Rust e uma avaliação multilingue de similaridade entre frases em 9.304 pares rotulados de 29 subconjuntos. Com um codificador MiniLM multilingue, os esboços de 48 bytes alcançaram correlação de Pearson macro de 0,910 e 0,946 com as pontuações densas de cosseno no STS17 e STS22. Clark Hash não é um novo teorema de Johnson-Lindenstrauss e não substitui índices aproximados de vizinhos mais próximos. É um codec simples sem estado para armazenamento compacto de incorporações.

English

Clark Hash is a small method for storing neural embeddings in less space. It normalizes each database vector, applies a deterministic sparse signed Johnson-Lindenstrauss projection, clips the result, and stores a fixed-width scalar-quantized code. Queries stay in floating point and are scored against the stored sketches. In the default 384-dimensional sentence-embedding setting, Clark Hash stores a cosine-search vector in 48 bytes instead of 1536 bytes for dense f32 storage. This is 32x smaller. The method does not need a training pass, learned codebooks, rotations, or corpus statistics before new vectors can be stored. We describe the codec, the Rust implementation, and a multilingual sentence-similarity evaluation on 9,304 labeled pairs from 29 subsets. With a multilingual MiniLM encoder, the 48-byte sketches reached 0.910 and 0.946 macro Pearson correlation with dense cosine scores on STS17 and STS22. Clark Hash is not a new Johnson-Lindenstrauss theorem and it is not a replacement for approximate nearest-neighbor indexes. It is a simple stateless codec for compact embedding storage.