Naar flexibele perceptie met visueel geheugen
Towards flexible perception with visual memory
August 15, 2024
Auteurs: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI
Samenvatting
Het trainen van een neuraal netwerk is een monolithische onderneming, vergelijkbaar met het uithakken van kennis in steen: zodra het proces is voltooid, is het bewerken van de kennis in een netwerk bijna onmogelijk, aangezien alle informatie is verdeeld over de gewichten van het netwerk. Hier onderzoeken we een eenvoudig, overtuigend alternatief door de representatiekracht van diepe neurale netwerken te combineren met de flexibiliteit van een database. Door de taak van beeldclassificatie op te splitsen in beeldgelijkenis (van een vooraf getrainde embedding) en zoeken (via snelle nearest neighbor retrieval uit een kennisdatabase), bouwen we een eenvoudig en flexibel visueel geheugen met de volgende belangrijke mogelijkheden: (1.) De mogelijkheid om flexibel gegevens toe te voegen op verschillende schalen: van individuele voorbeelden tot hele klassen en gegevens op miljardenschaal; (2.) De mogelijkheid om gegevens te verwijderen door middel van ontleren en geheugenpruning; (3.) Een interpreteerbaar beslissingsmechanisme waarop we kunnen ingrijpen om het gedrag te sturen. Samen demonstreren deze mogelijkheden uitgebreid de voordelen van een expliciet visueel geheugen. We hopen dat het kan bijdragen aan een discussie over hoe kennis zou moeten worden gerepresenteerd in diepe vision-modellen – verder dan het uithakken in ``stenen'' gewichten.
English
Training a neural network is a monolithic endeavor, akin to carving knowledge
into stone: once the process is completed, editing the knowledge in a network
is nearly impossible, since all information is distributed across the network's
weights. We here explore a simple, compelling alternative by marrying the
representational power of deep neural networks with the flexibility of a
database. Decomposing the task of image classification into image similarity
(from a pre-trained embedding) and search (via fast nearest neighbor retrieval
from a knowledge database), we build a simple and flexible visual memory that
has the following key capabilities: (1.) The ability to flexibly add data
across scales: from individual samples all the way to entire classes and
billion-scale data; (2.) The ability to remove data through unlearning and
memory pruning; (3.) An interpretable decision-mechanism on which we can
intervene to control its behavior. Taken together, these capabilities
comprehensively demonstrate the benefits of an explicit visual memory. We hope
that it might contribute to a conversation on how knowledge should be
represented in deep vision models -- beyond carving it in ``stone'' weights.