Rumo a uma percepção flexível com memória visual
Towards flexible perception with visual memory
August 15, 2024
Autores: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI
Resumo
Treinar uma rede neural é um empreendimento monolítico, semelhante a esculpir conhecimento em pedra: uma vez que o processo é concluído, editar o conhecimento em uma rede é quase impossível, uma vez que todas as informações estão distribuídas pelos pesos da rede. Aqui exploramos uma alternativa simples e convincente ao unir o poder representacional de redes neurais profundas com a flexibilidade de um banco de dados. Decompondo a tarefa de classificação de imagens em similaridade de imagens (a partir de um embedding pré-treinado) e busca (via rápida recuperação do vizinho mais próximo a partir de um banco de dados de conhecimento), construímos uma memória visual simples e flexível que possui as seguintes capacidades-chave: (1.) A capacidade de adicionar dados de forma flexível em diferentes escalas: desde amostras individuais até classes inteiras e dados em escala de bilhões; (2.) A capacidade de remover dados por meio de desaprendizado e poda de memória; (3.) Um mecanismo de decisão interpretável no qual podemos intervir para controlar seu comportamento. Juntas, essas capacidades demonstram abrangente os benefícios de uma memória visual explícita. Esperamos que isso possa contribuir para uma conversa sobre como o conhecimento deve ser representado em modelos de visão profunda - além de esculpi-lo em pesos de "pedra".
English
Training a neural network is a monolithic endeavor, akin to carving knowledge
into stone: once the process is completed, editing the knowledge in a network
is nearly impossible, since all information is distributed across the network's
weights. We here explore a simple, compelling alternative by marrying the
representational power of deep neural networks with the flexibility of a
database. Decomposing the task of image classification into image similarity
(from a pre-trained embedding) and search (via fast nearest neighbor retrieval
from a knowledge database), we build a simple and flexible visual memory that
has the following key capabilities: (1.) The ability to flexibly add data
across scales: from individual samples all the way to entire classes and
billion-scale data; (2.) The ability to remove data through unlearning and
memory pruning; (3.) An interpretable decision-mechanism on which we can
intervene to control its behavior. Taken together, these capabilities
comprehensively demonstrate the benefits of an explicit visual memory. We hope
that it might contribute to a conversation on how knowledge should be
represented in deep vision models -- beyond carving it in ``stone'' weights.Summary
AI-Generated Summary