ChatPaper.aiChatPaper

К гибкому восприятию с помощью визуальной памяти

Towards flexible perception with visual memory

August 15, 2024
Авторы: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI

Аннотация

Обучение нейронной сети - это монументальное начинание, сходное с высечением знаний в камне: после завершения процесса редактирование знаний в сети практически невозможно, поскольку вся информация распределена по весам сети. Здесь мы исследуем простую, убедительную альтернативу, объединяя представительную мощность глубоких нейронных сетей с гибкостью базы данных. Разбивая задачу классификации изображений на сходство изображений (из предварительно обученного встраивания) и поиск (через быстрый поиск ближайших соседей из базы знаний), мы создаем простую и гибкую визуальную память, обладающую следующими ключевыми возможностями: (1.) Возможность гибко добавлять данные на различных уровнях: от отдельных образцов до целых классов и данных масштаба в миллиарды; (2.) Возможность удаления данных путем разучивания и обрезки памяти; (3.) Интерпретируемый механизм принятия решений, на который мы можем воздействовать для управления его поведением. Вместе эти возможности исчерпывающе демонстрируют преимущества явной визуальной памяти. Мы надеемся, что это может способствовать обсуждению того, как знания должны быть представлены в глубоких моделях зрения - за пределами высечения их в "каменных" весах.
English
Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in ``stone'' weights.

Summary

AI-Generated Summary

PDF243November 26, 2024