Richtung flexible Wahrnehmung mit visuellem Gedächtnis
Towards flexible perception with visual memory
August 15, 2024
Autoren: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens
cs.AI
Zusammenfassung
Das Training eines neuronalen Netzwerks ist ein monolithisches Unterfangen, vergleichbar mit dem Einmeißeln von Wissen in Stein: Sobald der Prozess abgeschlossen ist, ist eine Bearbeitung des Wissens in einem Netzwerk nahezu unmöglich, da alle Informationen über die Gewichte des Netzwerks verteilt sind. Hier untersuchen wir eine einfache, überzeugende Alternative, indem wir die Repräsentationskraft von tiefen neuronalen Netzwerken mit der Flexibilität einer Datenbank verbinden. Indem wir die Aufgabe der Bildklassifizierung in Bildähnlichkeit (aus einer vorab trainierten Einbettung) und Suche (über schnelle nächste Nachbarabfrage aus einer Wissensdatenbank) zerlegen, bauen wir ein einfaches und flexibles visuelles Gedächtnis, das über folgende Schlüsselfähigkeiten verfügt: (1.) Die Fähigkeit, Daten flexibel über verschiedene Maßstäbe hinweg hinzuzufügen: von einzelnen Proben bis hin zu ganzen Klassen und Daten im Milliardenmaßstab; (2.) Die Fähigkeit, Daten durch Entlernen und Gedächtnisbeschneidung zu entfernen; (3.) Ein interpretierbarer Entscheidungsmechanismus, in den wir eingreifen können, um sein Verhalten zu steuern. Zusammen genommen zeigen diese Fähigkeiten umfassend die Vorteile eines expliziten visuellen Gedächtnisses auf. Wir hoffen, dass dies zu einer Diskussion darüber beitragen könnte, wie Wissen in tiefen Bildmodellen repräsentiert werden sollte - jenseits davon, es in "Stein"-Gewichten einzumeißeln.
English
Training a neural network is a monolithic endeavor, akin to carving knowledge
into stone: once the process is completed, editing the knowledge in a network
is nearly impossible, since all information is distributed across the network's
weights. We here explore a simple, compelling alternative by marrying the
representational power of deep neural networks with the flexibility of a
database. Decomposing the task of image classification into image similarity
(from a pre-trained embedding) and search (via fast nearest neighbor retrieval
from a knowledge database), we build a simple and flexible visual memory that
has the following key capabilities: (1.) The ability to flexibly add data
across scales: from individual samples all the way to entire classes and
billion-scale data; (2.) The ability to remove data through unlearning and
memory pruning; (3.) An interpretable decision-mechanism on which we can
intervene to control its behavior. Taken together, these capabilities
comprehensively demonstrate the benefits of an explicit visual memory. We hope
that it might contribute to a conversation on how knowledge should be
represented in deep vision models -- beyond carving it in ``stone'' weights.Summary
AI-Generated Summary