¿Por qué los Transformers no pueden aprender la multiplicación? La ingeniería inversa revela los desafíos de las dependencias de largo alcance
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
September 30, 2025
Autores: Xiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee
cs.AI
Resumen
Los modelos de lenguaje son cada vez más capaces, pero aún fallan en una tarea aparentemente simple como la multiplicación de varios dígitos. En este trabajo, estudiamos por qué, mediante la ingeniería inversa de un modelo que aprende con éxito la multiplicación a través de una cadena de pensamiento implícita, y reportamos tres hallazgos: (1) Evidencia de estructura de largo alcance: las atribuciones de logits y las sondas lineales indican que el modelo codifica las dependencias de largo alcance necesarias para la multiplicación de varios dígitos. (2) Mecanismo: el modelo codifica las dependencias de largo alcance utilizando atención para construir un grafo acíclico dirigido que "almacena" y "recupera" productos parciales por pares. (3) Geometría: el modelo implementa productos parciales en cabezas de atención formando sumas de Minkowski entre pares de dígitos, y los dígitos se representan utilizando una base de Fourier, ambas representaciones intuitivas y eficientes que carece el modelo de ajuste fino estándar. Con estas ideas, revisamos la dinámica de aprendizaje del ajuste fino estándar y encontramos que el modelo converge a un óptimo local que carece de las dependencias de largo alcance necesarias. Validamos aún más esta comprensión introduciendo una pérdida auxiliar que predice la "suma acumulada" mediante una sonda de regresión lineal, lo que proporciona un sesgo inductivo que permite al modelo aprender con éxito la multiplicación de varios dígitos. En resumen, al realizar ingeniería inversa de los mecanismos de un modelo de cadena de pensamiento implícita, descubrimos una trampa para el aprendizaje de dependencias de largo alcance en Transformers y proporcionamos un ejemplo de cómo el sesgo inductivo correcto puede abordar este problema.
English
Language models are increasingly capable, yet still fail at a seemingly
simple task of multi-digit multiplication. In this work, we study why, by
reverse-engineering a model that successfully learns multiplication via
implicit chain-of-thought, and report three findings: (1) Evidence of
long-range structure: Logit attributions and linear probes indicate that the
model encodes the necessary long-range dependencies for multi-digit
multiplication. (2) Mechanism: the model encodes long-range dependencies using
attention to construct a directed acyclic graph to ``cache'' and ``retrieve''
pairwise partial products. (3) Geometry: the model implements partial products
in attention heads by forming Minkowski sums between pairs of digits, and
digits are represented using a Fourier basis, both of which are intuitive and
efficient representations that the standard fine-tuning model lacks. With these
insights, we revisit the learning dynamics of standard fine-tuning and find
that the model converges to a local optimum that lacks the required long-range
dependencies. We further validate this understanding by introducing an
auxiliary loss that predicts the ``running sum'' via a linear regression probe,
which provides an inductive bias that enables the model to successfully learn
multi-digit multiplication. In summary, by reverse-engineering the mechanisms
of an implicit chain-of-thought model we uncover a pitfall for learning
long-range dependencies in Transformers and provide an example of how the
correct inductive bias can address this issue.