ChatPaper.aiChatPaper

Richtung flexible Wahrnehmung mit visuellem Gedächtnis

Towards flexible perception with visual memory

August 15, 2024
Autoren: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI

Zusammenfassung

Das Training eines neuronalen Netzwerks ist ein monolithisches Unterfangen, vergleichbar mit dem Einmeißeln von Wissen in Stein: Sobald der Prozess abgeschlossen ist, ist eine Bearbeitung des Wissens in einem Netzwerk nahezu unmöglich, da alle Informationen über die Gewichte des Netzwerks verteilt sind. Hier untersuchen wir eine einfache, überzeugende Alternative, indem wir die Repräsentationskraft von tiefen neuronalen Netzwerken mit der Flexibilität einer Datenbank verbinden. Indem wir die Aufgabe der Bildklassifizierung in Bildähnlichkeit (aus einer vorab trainierten Einbettung) und Suche (über schnelle nächste Nachbarabfrage aus einer Wissensdatenbank) zerlegen, bauen wir ein einfaches und flexibles visuelles Gedächtnis, das über folgende Schlüsselfähigkeiten verfügt: (1.) Die Fähigkeit, Daten flexibel über verschiedene Maßstäbe hinweg hinzuzufügen: von einzelnen Proben bis hin zu ganzen Klassen und Daten im Milliardenmaßstab; (2.) Die Fähigkeit, Daten durch Entlernen und Gedächtnisbeschneidung zu entfernen; (3.) Ein interpretierbarer Entscheidungsmechanismus, in den wir eingreifen können, um sein Verhalten zu steuern. Zusammen genommen zeigen diese Fähigkeiten umfassend die Vorteile eines expliziten visuellen Gedächtnisses auf. Wir hoffen, dass dies zu einer Diskussion darüber beitragen könnte, wie Wissen in tiefen Bildmodellen repräsentiert werden sollte - jenseits davon, es in "Stein"-Gewichten einzumeißeln.
English
Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in ``stone'' weights.

Summary

AI-Generated Summary

PDF243November 26, 2024