Verso una percezione flessibile con memoria visiva
Towards flexible perception with visual memory
August 15, 2024
Autori: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI
Abstract
Addestrare una rete neurale è un'impresa monolitica, paragonabile a scolpire la conoscenza nella pietra: una volta completato il processo, modificare la conoscenza all'interno di una rete è quasi impossibile, poiché tutte le informazioni sono distribuite tra i pesi della rete. Qui esploriamo un'alternativa semplice e convincente, unendo il potere rappresentativo delle reti neurali profonde con la flessibilità di un database. Scomponendo il compito della classificazione delle immagini in similarità delle immagini (da un embedding pre-addestrato) e ricerca (tramite un rapido recupero dei vicini più prossimi da un database di conoscenza), costruiamo una memoria visiva semplice e flessibile che possiede le seguenti capacità chiave: (1.) La capacità di aggiungere dati in modo flessibile su diverse scale: da singoli campioni fino a intere classi e dati su scala miliardaria; (2.) La capacità di rimuovere dati attraverso l'eliminazione selettiva (unlearning) e la potatura della memoria; (3.) Un meccanismo decisionale interpretabile su cui possiamo intervenire per controllarne il comportamento. Nel complesso, queste capacità dimostrano in modo esaustivo i vantaggi di una memoria visiva esplicita. Speriamo che ciò possa contribuire a una discussione su come la conoscenza dovrebbe essere rappresentata nei modelli di visione profonda -- oltre a scolpirla nei pesi "di pietra".
English
Training a neural network is a monolithic endeavor, akin to carving knowledge
into stone: once the process is completed, editing the knowledge in a network
is nearly impossible, since all information is distributed across the network's
weights. We here explore a simple, compelling alternative by marrying the
representational power of deep neural networks with the flexibility of a
database. Decomposing the task of image classification into image similarity
(from a pre-trained embedding) and search (via fast nearest neighbor retrieval
from a knowledge database), we build a simple and flexible visual memory that
has the following key capabilities: (1.) The ability to flexibly add data
across scales: from individual samples all the way to entire classes and
billion-scale data; (2.) The ability to remove data through unlearning and
memory pruning; (3.) An interpretable decision-mechanism on which we can
intervene to control its behavior. Taken together, these capabilities
comprehensively demonstrate the benefits of an explicit visual memory. We hope
that it might contribute to a conversation on how knowledge should be
represented in deep vision models -- beyond carving it in ``stone'' weights.