Die geometrische Ausrichtungsteuer: Tokenisierung versus kontinuierliche Geometrie in wissenschaftlichen Basismodellen

Zusammenfassung

Foundation Models für Biologie und Physik optimieren die Vorhersagegenauigkeit, doch ihre internen Repräsentationen bewahren systematisch die kontinuierliche Geometrie der modellierten Systeme nicht. Wir identifizieren die Ursache: die Geometrische Ausrichtungssteuer (Geometric Alignment Tax), eine intrinsische Kostenlast, die entsteht, wenn kontinuierliche Mannigfaltigkeiten durch diskrete kategorische Engpässe gezwungen werden. Kontrollierte Ablationen an synthetischen dynamischen Systemen zeigen, dass der Ersatz der Kreuzentropie durch einen kontinuierlichen Head auf einem identischen Encoder die geometrische Verzerrung um bis zum 8,5-fachen reduziert, während gelernte Codebücher eine nicht-monotone Double-Bind-Situation aufweisen, bei der feinere Quantisierung die Geometrie verschlechtert, obwohl sie die Rekonstruktion verbessert. Unter kontinuierlichen Zielvorgaben unterscheiden sich drei Architekturen um das 1,3-fache; unter diskreter Tokenisierung divergieren sie um das 3.000-fache. Durch die Evaluierung von 14 biologischen Foundation Models mittels Ratendistortionstheorie und MINE identifizieren wir drei Fehlerregime: Lokal-globale Entkopplung, Repräsentationskompression und geometrische Leere. Ein kontrolliertes Experiment bestätigt, dass die Reverse-Complement-Robustheit von Evo 2 auf realer DNA die konservierte Sequenzzusammensetzung widerspiegelt, nicht eine erlernte Symmetrie. Kein Modell erreicht gleichzeitig niedrige Verzerrung, hohe gegenseitige Information und globale Kohärenz.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

Die geometrische Ausrichtungsteuer: Tokenisierung versus kontinuierliche Geometrie in wissenschaftlichen Basismodellen

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Zusammenfassung

Support