O Imposto do Alinhamento Geométrico: Tokenização versus Geometria Contínua em Modelos Fundamentais Científicos

Resumo

Os modelos de base para biologia e física otimizam a precisão preditiva, mas as suas representações internas falham sistematicamente em preservar a geometria contínua dos sistemas que modelam. Nós identificamos a causa raiz: o Imposto de Alinhamento Geométrico, um custo intrínseco de forçar variedades contínuas através de estrangulamentos discretos e categóricos. Ablações controladas em sistemas dinâmicos sintéticos demonstram que substituir a entropia cruzada por um cabeçalho contínuo num codificador idêntico reduz a distorção geométrica em até 8,5 vezes, enquanto os codebooks aprendidos exibem uma dupla vinculação não monotónica em que uma quantização mais fina piora a geometria, apesar de melhorar a reconstrução. Sob objetivos contínuos, três arquiteturas diferem em 1,3 vezes; sob tokenização discreta, elas divergem em 3.000 vezes. Avaliando 14 modelos de base biológicos com a teoria taxa-distorção e MINE, identificamos três regimes de falha: Desacoplamento Local-Global, Compressão Representacional e Vacuidade Geométrica. Uma experiência controlada confirma que a robustez de reverso-complemento do Evo 2 no DNA real reflete uma composição de sequência conservada, e não uma simetria aprendida. Nenhum modelo alcança simultaneamente baixa distorção, alta informação mútua e coerência global.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

O Imposto do Alinhamento Geométrico: Tokenização versus Geometria Contínua em Modelos Fundamentais Científicos

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Resumo

Support