Apprendimento contestuale e rasoio di Occam.

Abstract

L'obiettivo dell'apprendimento automatico è la generalizzazione. Mentre il Teorema del No Free Lunch afferma che non possiamo ottenere garanzie teoriche per la generalizzazione senza ulteriori ipotesi, nella pratica osserviamo che i modelli semplici che spiegano i dati di addestramento generalizzano meglio: un principio chiamato rasoio di Occam. Nonostante la necessità di modelli semplici, la maggior parte degli approcci attuali nell'apprendimento automatico minimizzano solo l'errore di addestramento e al massimo promuovono indirettamente la semplicità attraverso la regolarizzazione o la progettazione dell'architettura. Qui, tracciamo un collegamento tra il rasoio di Occam e l'apprendimento in contesto: una capacità emergente di certi modelli sequenziali come i Transformers di apprendere al momento dell'inferenza dalle osservazioni passate in una sequenza. In particolare, mostriamo che la perdita di previsione del token successivo utilizzata per addestrare gli apprendisti in contesto è direttamente equivalente a una tecnica di compressione dei dati chiamata codifica prequential, e che minimizzare questa perdita equivale a minimizzare congiuntamente sia l'errore di addestramento che la complessità del modello che è stato appreso implicitamente dal contesto. La nostra teoria e gli esperimenti empirici che utilizziamo per sostenerla forniscono non solo una spiegazione normativa dell'apprendimento in contesto, ma chiariscono anche i difetti dei metodi attuali di apprendimento in contesto, suggerendo modi per migliorarli. Mettiamo a disposizione il nostro codice su https://github.com/3rdCore/PrequentialCode.

English

The goal of machine learning is generalization. While the No Free Lunch Theorem states that we cannot obtain theoretical guarantees for generalization without further assumptions, in practice we observe that simple models which explain the training data generalize best: a principle called Occam's razor. Despite the need for simple models, most current approaches in machine learning only minimize the training error, and at best indirectly promote simplicity through regularization or architecture design. Here, we draw a connection between Occam's razor and in-context learning: an emergent ability of certain sequence models like Transformers to learn at inference time from past observations in a sequence. In particular, we show that the next-token prediction loss used to train in-context learners is directly equivalent to a data compression technique called prequential coding, and that minimizing this loss amounts to jointly minimizing both the training error and the complexity of the model that was implicitly learned from context. Our theory and the empirical experiments we use to support it not only provide a normative account of in-context learning, but also elucidate the shortcomings of current in-context learning methods, suggesting ways in which they can be improved. We make our code available at https://github.com/3rdCore/PrequentialCode.

Apprendimento contestuale e rasoio di Occam.

In-context learning and Occam's razor

Abstract

Summary

Support

Support