Aprendizaje en contexto y la navaja de Occam
In-context learning and Occam's razor
October 17, 2024
Autores: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
cs.AI
Resumen
El objetivo del aprendizaje automático es la generalización. Mientras que el Teorema de No Almuerzo Gratis establece que no podemos obtener garantías teóricas para la generalización sin más suposiciones, en la práctica observamos que los modelos simples que explican los datos de entrenamiento generalizan mejor: un principio llamado navaja de Occam. A pesar de la necesidad de modelos simples, la mayoría de los enfoques actuales en aprendizaje automático solo minimizan el error de entrenamiento, y como máximo promueven la simplicidad de forma indirecta a través de la regularización o el diseño de la arquitectura. Aquí establecemos una conexión entre la navaja de Occam y el aprendizaje en contexto: una habilidad emergente de ciertos modelos de secuencia como los Transformers para aprender en tiempo de inferencia a partir de observaciones pasadas en una secuencia. En particular, demostramos que la pérdida de predicción del siguiente token utilizada para entrenar a los aprendices en contexto es directamente equivalente a una técnica de compresión de datos llamada codificación prequential, y que minimizar esta pérdida equivale a minimizar conjuntamente tanto el error de entrenamiento como la complejidad del modelo que se aprendió implícitamente del contexto. Nuestra teoría y los experimentos empíricos que utilizamos para respaldarla no solo proporcionan una explicación normativa del aprendizaje en contexto, sino que también aclaran las deficiencias de los métodos actuales de aprendizaje en contexto, sugiriendo formas en las que pueden mejorarse. Ponemos nuestro código a disposición en https://github.com/3rdCore/PrequentialCode.
English
The goal of machine learning is generalization. While the No Free Lunch
Theorem states that we cannot obtain theoretical guarantees for generalization
without further assumptions, in practice we observe that simple models which
explain the training data generalize best: a principle called Occam's razor.
Despite the need for simple models, most current approaches in machine learning
only minimize the training error, and at best indirectly promote simplicity
through regularization or architecture design. Here, we draw a connection
between Occam's razor and in-context learning: an emergent ability of certain
sequence models like Transformers to learn at inference time from past
observations in a sequence. In particular, we show that the next-token
prediction loss used to train in-context learners is directly equivalent to a
data compression technique called prequential coding, and that minimizing this
loss amounts to jointly minimizing both the training error and the complexity
of the model that was implicitly learned from context. Our theory and the
empirical experiments we use to support it not only provide a normative account
of in-context learning, but also elucidate the shortcomings of current
in-context learning methods, suggesting ways in which they can be improved. We
make our code available at https://github.com/3rdCore/PrequentialCode.Summary
AI-Generated Summary