Налог на геометрическое выравнивание: Токенизация против непрерывной геометрии в научных фундаментальных моделях

Аннотация

Фундаментальные модели в биологии и физике оптимизируют прогностическую точность, но их внутренние представления систематически не сохраняют непрерывную геометрию моделируемых систем. Мы определяем коренную причину: **Налог на Геометрическое Выравнивание** — внутреннюю стоимость принудительного пропускания непрерывных многообразий через дискретные категориальные «бутылочные горлышки». Контролируемые абляции на синтетических динамических системах показывают, что замена перекрёстной энтропии на непрерывную голову при том же самом энкодере снижает геометрическое искажение до 8.5 раз, в то время как обученные кодбуки демонстрируют немонотонную двойную связь, где более тонкая квантизация ухудшает геометрию, несмотря на улучшение реконструкции. При непрерывных целевых функциях три архитектуры различаются в 1.3 раза; при дискретной токенизации их расхождение достигает 3000 раз. Оценивая 14 биологических фундаментальных моделей с помощью теории нормы искажения и MINE, мы выявляем три режима отказа: **Разделение Локального и Глобального**, **Репрезентационное Сжатие** и **Геометрическая Пустота**. Контролируемый эксперимент подтверждает, что устойчивость Evo 2 к обратно-комплементарным последовательностям на реальной ДНК отражает консервативный состав последовательности, а не выученную симметрию. Ни одна модель не достигает одновременно низкого искажения, высокой взаимной информации и глобальной согласованности.

English

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

Налог на геометрическое выравнивание: Токенизация против непрерывной геометрии в научных фундаментальных моделях

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Аннотация

Support