Hacia una percepción flexible con memoria visual.
Towards flexible perception with visual memory
August 15, 2024
Autores: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI
Resumen
Entrenar una red neuronal es un esfuerzo monolítico, similar a esculpir conocimiento en piedra: una vez que se completa el proceso, editar el conocimiento en una red es casi imposible, ya que toda la información está distribuida en los pesos de la red. Aquí exploramos una alternativa simple y convincente al combinar el poder representacional de las redes neuronales profundas con la flexibilidad de una base de datos. Descomponiendo la tarea de clasificación de imágenes en similitud de imágenes (desde un incrustado pre-entrenado) y búsqueda (a través de una recuperación rápida de vecinos más cercanos desde una base de conocimiento), construimos una memoria visual simple y flexible que tiene las siguientes capacidades clave: (1.) La capacidad de agregar datos de manera flexible en diferentes escalas: desde muestras individuales hasta clases enteras y datos a escala de miles de millones; (2.) La capacidad de eliminar datos a través del desaprendizaje y la poda de la memoria; (3.) Un mecanismo de decisión interpretable en el que podemos intervenir para controlar su comportamiento. En conjunto, estas capacidades demuestran de manera integral los beneficios de una memoria visual explícita. Esperamos que pueda contribuir a una conversación sobre cómo debería representarse el conocimiento en modelos de visión profunda, más allá de esculpirlo en pesos de "piedra".
English
Training a neural network is a monolithic endeavor, akin to carving knowledge
into stone: once the process is completed, editing the knowledge in a network
is nearly impossible, since all information is distributed across the network's
weights. We here explore a simple, compelling alternative by marrying the
representational power of deep neural networks with the flexibility of a
database. Decomposing the task of image classification into image similarity
(from a pre-trained embedding) and search (via fast nearest neighbor retrieval
from a knowledge database), we build a simple and flexible visual memory that
has the following key capabilities: (1.) The ability to flexibly add data
across scales: from individual samples all the way to entire classes and
billion-scale data; (2.) The ability to remove data through unlearning and
memory pruning; (3.) An interpretable decision-mechanism on which we can
intervene to control its behavior. Taken together, these capabilities
comprehensively demonstrate the benefits of an explicit visual memory. We hope
that it might contribute to a conversation on how knowledge should be
represented in deep vision models -- beyond carving it in ``stone'' weights.Summary
AI-Generated Summary