ChatPaper.aiChatPaper

Vers une perception flexible avec mémoire visuelle

Towards flexible perception with visual memory

August 15, 2024
Auteurs: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI

Résumé

L'entraînement d'un réseau de neurones est une entreprise monolithique, comparable à graver la connaissance dans la pierre : une fois le processus terminé, modifier cette connaissance dans le réseau est quasiment impossible, car toutes les informations sont distribuées à travers les poids du réseau. Nous explorons ici une alternative simple et convaincante en combinant la puissance de représentation des réseaux de neurones profonds avec la flexibilité d'une base de données. En décomposant la tâche de classification d'images en similarité d'images (via un plongement pré-entraîné) et en recherche (via une récupération rapide des plus proches voisins dans une base de connaissances), nous construisons une mémoire visuelle simple et flexible dotée des capacités clés suivantes : (1.) La capacité d'ajouter des données de manière flexible à différentes échelles : des échantillons individuels jusqu'à des classes entières et des données à l'échelle du milliard ; (2.) La capacité de supprimer des données via le désapprentissage et l'élagage de la mémoire ; (3.) Un mécanisme de décision interprétable sur lequel nous pouvons intervenir pour contrôler son comportement. Ensemble, ces capacités démontrent de manière exhaustive les avantages d'une mémoire visuelle explicite. Nous espérons que cela pourra contribuer à une réflexion sur la manière dont la connaissance devrait être représentée dans les modèles de vision profonde — au-delà de la graver dans des poids « de pierre ».
English
Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in ``stone'' weights.

Summary

AI-Generated Summary

PDF243November 26, 2024