ChatPaper.aiChatPaper

Aprendizado em contexto e Navalha de Occam

In-context learning and Occam's razor

October 17, 2024
Autores: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
cs.AI

Resumo

O objetivo do aprendizado de máquina é a generalização. Enquanto o Teorema No Free Lunch afirma que não podemos obter garantias teóricas para a generalização sem mais pressupostos, na prática observamos que modelos simples que explicam os dados de treinamento generalizam melhor: um princípio chamado navalha de Occam. Apesar da necessidade de modelos simples, a maioria das abordagens atuais em aprendizado de máquina apenas minimiza o erro de treinamento e, no máximo, promove indiretamente a simplicidade por meio de regularização ou design de arquitetura. Aqui, estabelecemos uma conexão entre a navalha de Occam e o aprendizado em contexto: uma habilidade emergente de certos modelos de sequência como os Transformers para aprender no momento da inferência a partir de observações passadas em uma sequência. Em particular, mostramos que a perda de previsão do próximo token usada para treinar aprendizes em contexto é diretamente equivalente a uma técnica de compressão de dados chamada codificação prequential, e que minimizar essa perda equivale a minimizar conjuntamente tanto o erro de treinamento quanto a complexidade do modelo que foi implicitamente aprendida do contexto. Nossa teoria e os experimentos empíricos que utilizamos para apoiá-la não apenas fornecem uma explicação normativa do aprendizado em contexto, mas também elucidam as deficiências dos métodos atuais de aprendizado em contexto, sugerindo maneiras pelas quais eles podem ser aprimorados. Disponibilizamos nosso código em https://github.com/3rdCore/PrequentialCode.
English
The goal of machine learning is generalization. While the No Free Lunch Theorem states that we cannot obtain theoretical guarantees for generalization without further assumptions, in practice we observe that simple models which explain the training data generalize best: a principle called Occam's razor. Despite the need for simple models, most current approaches in machine learning only minimize the training error, and at best indirectly promote simplicity through regularization or architecture design. Here, we draw a connection between Occam's razor and in-context learning: an emergent ability of certain sequence models like Transformers to learn at inference time from past observations in a sequence. In particular, we show that the next-token prediction loss used to train in-context learners is directly equivalent to a data compression technique called prequential coding, and that minimizing this loss amounts to jointly minimizing both the training error and the complexity of the model that was implicitly learned from context. Our theory and the empirical experiments we use to support it not only provide a normative account of in-context learning, but also elucidate the shortcomings of current in-context learning methods, suggesting ways in which they can be improved. We make our code available at https://github.com/3rdCore/PrequentialCode.

Summary

AI-Generated Summary

PDF22November 16, 2024