ChatPaper.aiChatPaper

Обучение в контексте и бритва Оккама

In-context learning and Occam's razor

October 17, 2024
Авторы: Eric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
cs.AI

Аннотация

Целью машинного обучения является обобщение. В то время как Теорема о том, что обедов бесплатных нет, утверждает, что мы не можем получить теоретические гарантии для обобщения без дополнительных предположений, на практике мы наблюдаем, что простые модели, которые объясняют обучающие данные, лучше обобщаются: принцип, называемый бритвой Оккама. Несмотря на необходимость простых моделей, большинство текущих подходов в машинном обучении только минимизируют ошибку обучения, и, в лучшем случае, косвенно способствуют простоте через регуляризацию или конструкцию архитектуры. Здесь мы устанавливаем связь между бритвой Оккама и обучением в контексте: внезапно возникающая способность определенных моделей последовательностей, таких как Трансформеры, учиться во время вывода на основе предыдущих наблюдений в последовательности. В частности, мы показываем, что потеря предсказания следующего токена, используемая для обучения моделей в контексте, непосредственно эквивалентна технике сжатия данных, называемой предиктивным кодированием, и что минимизация этой потери означает совместное минимизирование как ошибки обучения, так и сложности модели, которая была неявно выучена из контекста. Наша теория и эмпирические эксперименты, которые мы используем для ее поддержки, не только предоставляют нормативное объяснение обучения в контексте, но также проясняют недостатки текущих методов обучения в контексте, предлагая способы их улучшения. Мы предоставляем наш код по адресу https://github.com/3rdCore/PrequentialCode.
English
The goal of machine learning is generalization. While the No Free Lunch Theorem states that we cannot obtain theoretical guarantees for generalization without further assumptions, in practice we observe that simple models which explain the training data generalize best: a principle called Occam's razor. Despite the need for simple models, most current approaches in machine learning only minimize the training error, and at best indirectly promote simplicity through regularization or architecture design. Here, we draw a connection between Occam's razor and in-context learning: an emergent ability of certain sequence models like Transformers to learn at inference time from past observations in a sequence. In particular, we show that the next-token prediction loss used to train in-context learners is directly equivalent to a data compression technique called prequential coding, and that minimizing this loss amounts to jointly minimizing both the training error and the complexity of the model that was implicitly learned from context. Our theory and the empirical experiments we use to support it not only provide a normative account of in-context learning, but also elucidate the shortcomings of current in-context learning methods, suggesting ways in which they can be improved. We make our code available at https://github.com/3rdCore/PrequentialCode.

Summary

AI-Generated Summary

PDF22November 16, 2024