Форма сложения: геометрические структуры арифметики в больших языковых моделях

Аннотация

Большие языковые модели демонстрируют парадоксальную хрупкость в фундаментальных арифметических операциях, что указывает на разрыв между внутренними вычислениями и дискретным выводом. Анализируя геометрию остаточного потока в процессе сложения с несколькими операндами, мы выявляем траекторию изо-сырой суммы (Iso-Raw-Sum Trajectory, IRST) — геометрическую структуру, в которой представления закреплены за семантическими цифрами и модулируются непрерывными волокнами переноса. Для объяснения этой геометрии мы предлагаем модель шумного квантования, трактующую арифметические ошибки как геометрические проскальзывания, вызванные внутренним нейронным шумом, который переталкивает непрерывный латентный потенциал переноса через пороги квантования. Данная геометрическая структура также проясняет универсальность зондов, объясняя, как легковесные зонды могут разделять сосуществующие латентные сигналы (например, истинное значение против галлюцинации) из одного вектора активации. Наконец, мы подтверждаем эти выводы с помощью метода проверки геометрической согласованности, который эффективно обнаруживает и исправляет указанные сбои квантования во время инференции. Наш код доступен по адресу https://github.com/RL-MIND/Shape-of-Addition.

English

Large Language Models exhibit paradoxical fragility in fundamental arithmetic, implying a disconnect between internal computation and discrete output. By analyzing the residual stream geometry during multi-operand addition, we identify the Iso-Raw-Sum Trajectory (IRST), a geometric structure where representations are anchored by semantic digits and modulated by continuous carry fibers. We propose the Noisy Quantization Model to explain this geometry, framing arithmetic errors as Geometric Slippages caused by internal neural noise pushing a continuous, latent Carry Potential across quantization thresholds. This geometric framework further elucidates Probe Versatility, explaining how lightweight probes can disentangle coexisting latent signals (such as ground truth versus hallucination) from a single activation vector. Finally, we validate these insights through a geometric consistency check method that effectively detects and corrects these quantization failures during inference. Our code is available at https://github.com/RL-MIND/Shape-of-Addition.