Clark Hash: Zustandslose sparse Johnson-Lindenstrauss-Quantisierung für neuronale Einbettungen

Zusammenfassung

Clark Hash ist ein kompaktes Verfahren zur platzsparenden Speicherung neuronaler Einbettungen. Es normalisiert jeden Datenbankvektor, wendet eine deterministische dünnbesetzte signierte Johnson-Lindenstrauss-Projektion an, begrenzt das Ergebnis und speichert einen skalarquantisierten Code mit fester Breite. Anfragen verbleiben in Gleitkommadarstellung und werden mit den gespeicherten Skizzen bewertet. In der Standardeinstellung für 384-dimensionale Satzeinbettungen speichert Clark Hash einen Kosinus-Suchvektor in 48 Bytes anstelle von 1536 Bytes für dichte f32-Speicherung. Dies ist eine 32-fache Reduktion. Das Verfahren benötigt keinen Trainingsdurchlauf, keine erlernten Codebücher, keine Rotationen und keine Korpusstatistiken, bevor neue Vektoren gespeichert werden können. Wir beschreiben den Codec, die Rust-Implementierung und eine mehrsprachige Satzähnlichkeitsbewertung an 9.304 beschrifteten Paaren aus 29 Teilmengen. Mit einem mehrsprachigen MiniLM-Encoder erreichten die 48-Byte-Skizzen eine makro-Pearson-Korrelation von 0,910 bzw. 0,946 mit dichten Kosinuswerten auf STS17 und STS22. Clark Hash ist kein neuer Johnson-Lindenstrauss-Satz und kein Ersatz für approximative Nächste-Nachbarn-Indizes. Es ist ein einfacher zustandsloser Codec zur kompakten Einbettungsspeicherung.

English

Clark Hash is a small method for storing neural embeddings in less space. It normalizes each database vector, applies a deterministic sparse signed Johnson-Lindenstrauss projection, clips the result, and stores a fixed-width scalar-quantized code. Queries stay in floating point and are scored against the stored sketches. In the default 384-dimensional sentence-embedding setting, Clark Hash stores a cosine-search vector in 48 bytes instead of 1536 bytes for dense f32 storage. This is 32x smaller. The method does not need a training pass, learned codebooks, rotations, or corpus statistics before new vectors can be stored. We describe the codec, the Rust implementation, and a multilingual sentence-similarity evaluation on 9,304 labeled pairs from 29 subsets. With a multilingual MiniLM encoder, the 48-byte sketches reached 0.910 and 0.946 macro Pearson correlation with dense cosine scores on STS17 and STS22. Clark Hash is not a new Johnson-Lindenstrauss theorem and it is not a replacement for approximate nearest-neighbor indexes. It is a simple stateless codec for compact embedding storage.