Хэш Кларка: безсостоянийное разреженное квантование Джонсона-Линденштрауса для нейронных эмбеддингов

Аннотация

Clark Hash — это компактный метод хранения нейронных эмбеддингов с меньшим объемом памяти. Он нормализует каждый вектор базы данных, применяет детерминированную разреженную знаковую проекцию Джонсона-Линденштрауса, обрезает результат и сохраняет код фиксированной ширины со скалярным квантованием. Запросы остаются в формате с плавающей запятой и оцениваются по сохраненным скетчам. В стандартной конфигурации с 384-мерными эмбеддингами предложений Clark Hash хранит вектор для косинусного поиска в 48 байтах вместо 1536 байт для плотного хранения f32. Это в 32 раза меньше. Метод не требует этапа обучения, изученных кодовых книг, поворотов или статистики корпуса перед сохранением новых векторов. Мы описываем кодек, реализацию на Rust и оценку многоязычного сходства предложений на 9 304 размеченных парах из 29 подмножеств. С многоязычным кодировщиком MiniLM 48-байтовые скетчи достигли макрокорреляции Пирсона 0,910 и 0,946 с плотными косинусными оценками на STS17 и STS22. Clark Hash не является новой теоремой Джонсона-Линденштрауса и не заменяет индексы приближенного поиска ближайших соседей. Это простой кодек без сохранения состояния для компактного хранения эмбеддингов.

English

Clark Hash is a small method for storing neural embeddings in less space. It normalizes each database vector, applies a deterministic sparse signed Johnson-Lindenstrauss projection, clips the result, and stores a fixed-width scalar-quantized code. Queries stay in floating point and are scored against the stored sketches. In the default 384-dimensional sentence-embedding setting, Clark Hash stores a cosine-search vector in 48 bytes instead of 1536 bytes for dense f32 storage. This is 32x smaller. The method does not need a training pass, learned codebooks, rotations, or corpus statistics before new vectors can be stored. We describe the codec, the Rust implementation, and a multilingual sentence-similarity evaluation on 9,304 labeled pairs from 29 subsets. With a multilingual MiniLM encoder, the 48-byte sketches reached 0.910 and 0.946 macro Pearson correlation with dense cosine scores on STS17 and STS22. Clark Hash is not a new Johnson-Lindenstrauss theorem and it is not a replacement for approximate nearest-neighbor indexes. It is a simple stateless codec for compact embedding storage.