К гибкому восприятию с помощью визуальной памяти
Towards flexible perception with visual memory
August 15, 2024
Авторы: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI
Аннотация
Обучение нейронной сети - это монументальное начинание, сходное с высечением знаний в камне: после завершения процесса редактирование знаний в сети практически невозможно, поскольку вся информация распределена по весам сети. Здесь мы исследуем простую, убедительную альтернативу, объединяя представительную мощность глубоких нейронных сетей с гибкостью базы данных. Разбивая задачу классификации изображений на сходство изображений (из предварительно обученного встраивания) и поиск (через быстрый поиск ближайших соседей из базы знаний), мы создаем простую и гибкую визуальную память, обладающую следующими ключевыми возможностями: (1.) Возможность гибко добавлять данные на различных уровнях: от отдельных образцов до целых классов и данных масштаба в миллиарды; (2.) Возможность удаления данных путем разучивания и обрезки памяти; (3.) Интерпретируемый механизм принятия решений, на который мы можем воздействовать для управления его поведением. Вместе эти возможности исчерпывающе демонстрируют преимущества явной визуальной памяти. Мы надеемся, что это может способствовать обсуждению того, как знания должны быть представлены в глубоких моделях зрения - за пределами высечения их в "каменных" весах.
English
Training a neural network is a monolithic endeavor, akin to carving knowledge
into stone: once the process is completed, editing the knowledge in a network
is nearly impossible, since all information is distributed across the network's
weights. We here explore a simple, compelling alternative by marrying the
representational power of deep neural networks with the flexibility of a
database. Decomposing the task of image classification into image similarity
(from a pre-trained embedding) and search (via fast nearest neighbor retrieval
from a knowledge database), we build a simple and flexible visual memory that
has the following key capabilities: (1.) The ability to flexibly add data
across scales: from individual samples all the way to entire classes and
billion-scale data; (2.) The ability to remove data through unlearning and
memory pruning; (3.) An interpretable decision-mechanism on which we can
intervene to control its behavior. Taken together, these capabilities
comprehensively demonstrate the benefits of an explicit visual memory. We hope
that it might contribute to a conversation on how knowledge should be
represented in deep vision models -- beyond carving it in ``stone'' weights.Summary
AI-Generated Summary