La Tassa dell'Allineamento Geometrico: Tokenizzazione vs. Geometria Continua nei Modelli Fondamentali Scientifici

Abstract

I modelli fondazionali per la biologia e la fisica ottimizzano l'accuratezza predittiva, ma le loro rappresentazioni interne falliscono sistematicamente nel preservare la geometria continua dei sistemi che modellano. Identifichiamo la causa principale: la Tassa di Allineamento Geometrico, un costo intrinseco del forzare varietà continue attraverso colli di bottiglia categorici discreti. Ablazioni controllate su sistemi dinamici sintetici dimostrano che sostituire l'entropia incrociata con un testa continua su un codificatore identico riduce la distorsione geometrica fino a 8,5 volte, mentre i codebook appresi mostrano un doppio vincolo non monotono in cui una quantizzazione più fine peggiora la geometria nonostante migliori la ricostruzione. Sotto obiettivi continui, tre architetture differiscono di 1,3 volte; sotto tokenizzazione discreta, divergono di 3000 volte. Valutando 14 modelli fondazionali biologici con la teoria rate-distortion e MINE, identifichiamo tre regimi di fallimento: Disaccoppiamento Locale-Globale, Compressione Rappresentazionale e Vacuità Geometrica. Un esperimento controllato conferma che la robustezza di Evo 2 al complemento inverso su DNA reale riflette una composizione sequenziale conservata, non una simmetria appresa. Nessun modello raggiunge simultaneamente bassa distorsione, alta informazione mutua e coerenza globale.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

La Tassa dell'Allineamento Geometrico: Tokenizzazione vs. Geometria Continua nei Modelli Fondamentali Scientifici

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Abstract

Support