¿Por qué los Transformers no pueden aprender la multiplicación? La ingeniería inversa revela los desafíos de las dependencias de largo alcance

Resumen

Los modelos de lenguaje son cada vez más capaces, pero aún fallan en una tarea aparentemente simple como la multiplicación de varios dígitos. En este trabajo, estudiamos por qué, mediante la ingeniería inversa de un modelo que aprende con éxito la multiplicación a través de una cadena de pensamiento implícita, y reportamos tres hallazgos: (1) Evidencia de estructura de largo alcance: las atribuciones de logits y las sondas lineales indican que el modelo codifica las dependencias de largo alcance necesarias para la multiplicación de varios dígitos. (2) Mecanismo: el modelo codifica las dependencias de largo alcance utilizando atención para construir un grafo acíclico dirigido que "almacena" y "recupera" productos parciales por pares. (3) Geometría: el modelo implementa productos parciales en cabezas de atención formando sumas de Minkowski entre pares de dígitos, y los dígitos se representan utilizando una base de Fourier, ambas representaciones intuitivas y eficientes que carece el modelo de ajuste fino estándar. Con estas ideas, revisamos la dinámica de aprendizaje del ajuste fino estándar y encontramos que el modelo converge a un óptimo local que carece de las dependencias de largo alcance necesarias. Validamos aún más esta comprensión introduciendo una pérdida auxiliar que predice la "suma acumulada" mediante una sonda de regresión lineal, lo que proporciona un sesgo inductivo que permite al modelo aprender con éxito la multiplicación de varios dígitos. En resumen, al realizar ingeniería inversa de los mecanismos de un modelo de cadena de pensamiento implícita, descubrimos una trampa para el aprendizaje de dependencias de largo alcance en Transformers y proporcionamos un ejemplo de cómo el sesgo inductivo correcto puede abordar este problema.

English

Language models are increasingly capable, yet still fail at a seemingly simple task of multi-digit multiplication. In this work, we study why, by reverse-engineering a model that successfully learns multiplication via implicit chain-of-thought, and report three findings: (1) Evidence of long-range structure: Logit attributions and linear probes indicate that the model encodes the necessary long-range dependencies for multi-digit multiplication. (2) Mechanism: the model encodes long-range dependencies using attention to construct a directed acyclic graph to ``cache'' and ``retrieve'' pairwise partial products. (3) Geometry: the model implements partial products in attention heads by forming Minkowski sums between pairs of digits, and digits are represented using a Fourier basis, both of which are intuitive and efficient representations that the standard fine-tuning model lacks. With these insights, we revisit the learning dynamics of standard fine-tuning and find that the model converges to a local optimum that lacks the required long-range dependencies. We further validate this understanding by introducing an auxiliary loss that predicts the ``running sum'' via a linear regression probe, which provides an inductive bias that enables the model to successfully learn multi-digit multiplication. In summary, by reverse-engineering the mechanisms of an implicit chain-of-thought model we uncover a pitfall for learning long-range dependencies in Transformers and provide an example of how the correct inductive bias can address this issue.

¿Por qué los Transformers no pueden aprender la multiplicación? La ingeniería inversa revela los desafíos de las dependencias de largo alcance

Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

Resumen

Support