La taxe d'alignement géométrique : Tokenisation contre géométrie continue dans les modèles de fondation scientifiques

Résumé

Les modèles de fondation pour la biologie et la physique optimisent la précision prédictive, mais leurs représentations internes échouent systématiquement à préserver la géométrie continue des systèmes qu'ils modélisent. Nous identifions la cause fondamentale : la Taxe d'Alignement Géométrique, un coût intrinsèque lié au forçage de variétés continues à travers des goulots d'étranglement catégoriels discrets. Des ablations contrôlées sur des systèmes dynamiques synthétiques démontrent que le remplacement de l'entropie croisée par une tête continue sur un encodeur identique réduit la distorsion géométrique jusqu'à 8,5 fois, tandis que les codebooks appris présentent une double contrainte non monotone où une quantification plus fine dégrade la géométrie malgré une amélioration de la reconstruction. Sous des objectifs continus, trois architectures diffèrent d'un facteur 1,3 ; sous une tokenisation discrète, elles divergent d'un facteur 3 000. En évaluant 14 modèles de fondation biologiques avec la théorie rate-distortion et MINE, nous identifions trois régimes d'échec : le Découplage Local-Global, la Compression Représentationnelle et la Vacuité Géométrique. Une expérience contrôlée confirme que la robustesse en reverse-complement d'Evo 2 sur de l'ADN réel reflète une composition de séquence conservée, et non une symétrie apprise. Aucun modèle n'atteint simultanément une faible distorsion, une information mutuelle élevée et une cohérence globale.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

La taxe d'alignement géométrique : Tokenisation contre géométrie continue dans les modèles de fondation scientifiques

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Résumé

Support