La forma de la suma: Estructuras geométricas de la aritmética en modelos de lenguaje grandes

Resumen

Los modelos de lenguaje grandes exhiben una fragilidad paradójica en la aritmética fundamental, lo que implica una desconexión entre la computación interna y la salida discreta. Al analizar la geometría del flujo residual durante la suma de múltiples operandos, identificamos la Trayectoria Iso-Suma-Bruta (IRST), una estructura geométrica donde las representaciones están ancladas por dígitos semánticos y moduladas por fibras continuas de acarreo. Proponemos el Modelo de Cuantificación Ruidosa para explicar esta geometría, enmarcando los errores aritméticos como Deslizamientos Geométricos causados por ruido neuronal interno que empuja un Potencial de Acarreo latente y continuo a través de umbrales de cuantificación. Este marco geométrico además elucida la Versatilidad de las Sondas, explicando cómo sondas ligeras pueden desenredar señales latentes coexistentes (como la verdad fundamental frente a la alucinación) a partir de un único vector de activación. Finalmente, validamos estos conocimientos mediante un método de verificación de consistencia geométrica que detecta y corrige eficazmente estos fallos de cuantificación durante la inferencia. Nuestro código está disponible en https://github.com/RL-MIND/Shape-of-Addition.

English

Large Language Models exhibit paradoxical fragility in fundamental arithmetic, implying a disconnect between internal computation and discrete output. By analyzing the residual stream geometry during multi-operand addition, we identify the Iso-Raw-Sum Trajectory (IRST), a geometric structure where representations are anchored by semantic digits and modulated by continuous carry fibers. We propose the Noisy Quantization Model to explain this geometry, framing arithmetic errors as Geometric Slippages caused by internal neural noise pushing a continuous, latent Carry Potential across quantization thresholds. This geometric framework further elucidates Probe Versatility, explaining how lightweight probes can disentangle coexisting latent signals (such as ground truth versus hallucination) from a single activation vector. Finally, we validate these insights through a geometric consistency check method that effectively detects and corrects these quantization failures during inference. Our code is available at https://github.com/RL-MIND/Shape-of-Addition.