El Impuesto de la Alineación Geométrica: Tokenización frente a Geometría Continua en Modelos Fundamentales Científicos

Resumen

Los modelos fundacionales para biología y física optimizan la precisión predictiva, pero sus representaciones internas fallan sistemáticamente en preservar la geometría continua de los sistemas que modelan. Identificamos la causa principal: el Impuesto de Alineación Geométrica, un costo intrínseco de forzar variedades continuas a través de cuellos de botella categóricos discretos. Las ablaciones controladas en sistemas dinámicos sintéticos demuestran que reemplazar la entropía cruzada con una cabeza continua en un codificador idéntico reduce la distorsión geométrica hasta 8.5 veces, mientras que los codebooks aprendidos exhiben una doble atadura no monótona donde una cuantificación más fina empeora la geometría a pesar de mejorar la reconstrucción. Bajo objetivos continuos, tres arquitecturas difieren en 1.3 veces; bajo tokenización discreta, divergen en 3000 veces. Evaluando 14 modelos fundacionales biológicos con teoría de tasa-distorsión y MINE, identificamos tres regímenes de fallo: Desacoplamiento Local-Global, Compresión Representacional y Vaciedad Geométrica. Un experimento controlado confirma que la robustez de Evo 2 al complemento inverso en ADN real refleja una composición de secuencia conservada, no una simetría aprendida. Ningún modelo logra simultáneamente baja distorsión, alta información mutua y coherencia global.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

El Impuesto de la Alineación Geométrica: Tokenización frente a Geometría Continua en Modelos Fundamentales Científicos

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Resumen

Support