Meta-Apprendimento Consapevole del Contesto
Context-Aware Meta-Learning
October 17, 2023
Autori: Christopher Fifty, Dennis Duan, Ronald G. Junkins, Ehsan Amid, Jure Leskovec, Christopher Ré, Sebastian Thrun
cs.AI
Abstract
I modelli linguistici di grandi dimensioni come ChatGPT dimostrano una notevole capacità di apprendere nuovi concetti durante l'inferenza senza alcun fine-tuning. Tuttavia, i modelli visivi addestrati per rilevare nuovi oggetti durante l'inferenza non sono stati in grado di replicare questa abilità, e invece ottengono prestazioni scarse o richiedono meta-training e/o fine-tuning su oggetti simili. In questo lavoro, proponiamo un algoritmo di meta-apprendimento che emula i modelli linguistici di grandi dimensioni apprendendo nuovi concetti visivi durante l'inferenza senza fine-tuning. Il nostro approccio sfrutta un estrattore di caratteristiche pre-addestrato e congelato e, analogamente all'apprendimento in contesto, riformula il meta-apprendimento come modellazione di sequenze su punti dati con etichette note e un punto di test con un'etichetta sconosciuta. Su 8 degli 11 benchmark di meta-apprendimento, il nostro approccio -- senza meta-training o fine-tuning -- supera o eguaglia l'algoritmo all'avanguardia, P>M>F, che è meta-addestrato su questi benchmark.
English
Large Language Models like ChatGPT demonstrate a remarkable capacity to learn
new concepts during inference without any fine-tuning. However, visual models
trained to detect new objects during inference have been unable to replicate
this ability, and instead either perform poorly or require meta-training and/or
fine-tuning on similar objects. In this work, we propose a meta-learning
algorithm that emulates Large Language Models by learning new visual concepts
during inference without fine-tuning. Our approach leverages a frozen
pre-trained feature extractor, and analogous to in-context learning, recasts
meta-learning as sequence modeling over datapoints with known labels and a test
datapoint with an unknown label. On 8 out of 11 meta-learning benchmarks, our
approach -- without meta-training or fine-tuning -- exceeds or matches the
state-of-the-art algorithm, P>M>F, which is meta-trained on these benchmarks.