Aprendizaje en contexto y la navaja de Occam

Resumen

El objetivo del aprendizaje automático es la generalización. Mientras que el Teorema de No Almuerzo Gratis establece que no podemos obtener garantías teóricas para la generalización sin más suposiciones, en la práctica observamos que los modelos simples que explican los datos de entrenamiento generalizan mejor: un principio llamado navaja de Occam. A pesar de la necesidad de modelos simples, la mayoría de los enfoques actuales en aprendizaje automático solo minimizan el error de entrenamiento, y como máximo promueven la simplicidad de forma indirecta a través de la regularización o el diseño de la arquitectura. Aquí establecemos una conexión entre la navaja de Occam y el aprendizaje en contexto: una habilidad emergente de ciertos modelos de secuencia como los Transformers para aprender en tiempo de inferencia a partir de observaciones pasadas en una secuencia. En particular, demostramos que la pérdida de predicción del siguiente token utilizada para entrenar a los aprendices en contexto es directamente equivalente a una técnica de compresión de datos llamada codificación prequential, y que minimizar esta pérdida equivale a minimizar conjuntamente tanto el error de entrenamiento como la complejidad del modelo que se aprendió implícitamente del contexto. Nuestra teoría y los experimentos empíricos que utilizamos para respaldarla no solo proporcionan una explicación normativa del aprendizaje en contexto, sino que también aclaran las deficiencias de los métodos actuales de aprendizaje en contexto, sugiriendo formas en las que pueden mejorarse. Ponemos nuestro código a disposición en https://github.com/3rdCore/PrequentialCode.

English

The goal of machine learning is generalization. While the No Free Lunch Theorem states that we cannot obtain theoretical guarantees for generalization without further assumptions, in practice we observe that simple models which explain the training data generalize best: a principle called Occam's razor. Despite the need for simple models, most current approaches in machine learning only minimize the training error, and at best indirectly promote simplicity through regularization or architecture design. Here, we draw a connection between Occam's razor and in-context learning: an emergent ability of certain sequence models like Transformers to learn at inference time from past observations in a sequence. In particular, we show that the next-token prediction loss used to train in-context learners is directly equivalent to a data compression technique called prequential coding, and that minimizing this loss amounts to jointly minimizing both the training error and the complexity of the model that was implicitly learned from context. Our theory and the empirical experiments we use to support it not only provide a normative account of in-context learning, but also elucidate the shortcomings of current in-context learning methods, suggesting ways in which they can be improved. We make our code available at https://github.com/3rdCore/PrequentialCode.

Aprendizaje en contexto y la navaja de Occam

In-context learning and Occam's razor

Resumen

Support