Verso una percezione flessibile con memoria visiva

Abstract

Addestrare una rete neurale è un'impresa monolitica, paragonabile a scolpire la conoscenza nella pietra: una volta completato il processo, modificare la conoscenza all'interno di una rete è quasi impossibile, poiché tutte le informazioni sono distribuite tra i pesi della rete. Qui esploriamo un'alternativa semplice e convincente, unendo il potere rappresentativo delle reti neurali profonde con la flessibilità di un database. Scomponendo il compito della classificazione delle immagini in similarità delle immagini (da un embedding pre-addestrato) e ricerca (tramite un rapido recupero dei vicini più prossimi da un database di conoscenza), costruiamo una memoria visiva semplice e flessibile che possiede le seguenti capacità chiave: (1.) La capacità di aggiungere dati in modo flessibile su diverse scale: da singoli campioni fino a intere classi e dati su scala miliardaria; (2.) La capacità di rimuovere dati attraverso l'eliminazione selettiva (unlearning) e la potatura della memoria; (3.) Un meccanismo decisionale interpretabile su cui possiamo intervenire per controllarne il comportamento. Nel complesso, queste capacità dimostrano in modo esaustivo i vantaggi di una memoria visiva esplicita. Speriamo che ciò possa contribuire a una discussione su come la conoscenza dovrebbe essere rappresentata nei modelli di visione profonda -- oltre a scolpirla nei pesi "di pietra".

English

Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in ``stone'' weights.

Verso una percezione flessibile con memoria visiva

Towards flexible perception with visual memory

Abstract

Support