De Geometrische Uitlijningstaks: Tokenisatie versus Continue Geometrie in Wetenschappelijke Fundamentmodellen

Samenvatting

Fundamentele modellen voor biologie en natuurkunde optimaliseren voorspellende nauwkeurigheid, maar hun interne representaties slagen er systematisch niet in de continue geometrie van de systemen die ze modelleren te behouden. Wij identificeren de hoofdoorzaak: de Geometrische Uitlijningsbelasting, een intrinsieke kost van het forceren van continue variëteiten door discrete categorische knelpunten. Gecontroleerde ablatiestudies op synthetische dynamische systemen tonen aan dat het vervangen van kruis-entropie door een continue uitvoerlaag op een identieke encoder de geometrische vervorming tot 8,5x vermindert, terwijl aangeleerde codeboeken een niet-monotone dubbele binding vertonen waarbij fijnere kwantisatie de geometrie verslechtert ondanks verbeterde reconstructie. Onder continue doelfuncties verschillen drie architecturen met 1,3x; onder discrete tokenisatie lopen ze 3.000x uiteen. Door 14 biologische fundamentemodellen te evalueren met ratedistortietheorie en MINE, identificeren we drie faalregimes: Lokale-Globale Ontkoppeling, Representatiecompressie en Geometrische Leegte. Een gecontroleerd experiment bevestigt dat de robuustheid van Evo 2 voor reverse-complementen op echt DNA een geconserveerde sequentiesamenstelling weerspiegelt, geen aangeleerde symmetrie. Geen enkel model bereikt gelijktijdig lage vervorming, hoge wederzijdse informatie en globale coherentie.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

De Geometrische Uitlijningstaks: Tokenisatie versus Continue Geometrie in Wetenschappelijke Fundamentmodellen

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Samenvatting

Support