Mindstorms in natürlichsprachlichen Gesellschaften des Geistes
Mindstorms in Natural Language-Based Societies of Mind
May 26, 2023
Autoren: Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
cs.AI
Zusammenfassung
Sowohl Minskys „Gesellschaft des Geistes“ als auch Schmidhubers „Lernen zu denken“ inspirieren vielfältige Gesellschaften großer multimodaler neuronaler Netze (NNs), die Probleme lösen, indem sie sich in einem „Mindstorm“ gegenseitig befragen. Aktuelle Implementierungen solcher NN-basierten Gesellschaften des Geistes bestehen aus großen Sprachmodellen (LLMs) und anderen NN-basierten Experten, die über eine natürliche Sprachschnittstelle kommunizieren. Dadurch überwinden sie die Grenzen einzelner LLMs und verbessern das multimodale Zero-Shot-Reasoning. In diesen auf natürlicher Sprache basierenden Gesellschaften des Geistes (NLSOMs) können neue Agenten – die alle über dieselbe universelle symbolische Sprache kommunizieren – modular hinzugefügt werden. Um die Leistungsfähigkeit von NLSOMs zu demonstrieren, bauen wir mehrere davon auf (mit bis zu 129 Mitgliedern) und nutzen Mindstorms in ihnen, um praktische KI-Aufgaben zu lösen: visuelle Fragebeantwortung, Bildbeschriftung, Text-zu-Bild-Synthese, 3D-Generierung, egozentrische Suche, verkörperte KI und allgemeine sprachbasierte Aufgabenlösung. Wir betrachten dies als Ausgangspunkt für viel größere NLSOMs mit Milliarden von Agenten – von denen einige Menschen sein könnten. Mit dem Entstehen großer Gesellschaften heterogener Geister sind viele neue Forschungsfragen plötzlich von zentraler Bedeutung für die Zukunft der künstlichen Intelligenz. Wie sollte die soziale Struktur eines NLSOM aussehen? Welche (Nach-)Vorteile hätte eine monarchische gegenüber einer demokratischen Struktur? Wie können Prinzipien der NN-Ökonomie genutzt werden, um den Gesamtertrag eines verstärkungslernenden NLSOM zu maximieren? In dieser Arbeit identifizieren, diskutieren und versuchen wir, einige dieser Fragen zu beantworten.
English
Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire
diverse societies of large multimodal neural networks (NNs) that solve problems
by interviewing each other in a "mindstorm." Recent implementations of NN-based
societies of minds consist of large language models (LLMs) and other NN-based
experts communicating through a natural language interface. In doing so, they
overcome the limitations of single LLMs, improving multimodal zero-shot
reasoning. In these natural language-based societies of mind (NLSOMs), new
agents -- all communicating through the same universal symbolic language -- are
easily added in a modular fashion. To demonstrate the power of NLSOMs, we
assemble and experiment with several of them (having up to 129 members),
leveraging mindstorms in them to solve some practical AI tasks: visual question
answering, image captioning, text-to-image synthesis, 3D generation, egocentric
retrieval, embodied AI, and general language-based task solving. We view this
as a starting point towards much larger NLSOMs with billions of agents-some of
which may be humans. And with this emergence of great societies of
heterogeneous minds, many new research questions have suddenly become paramount
to the future of artificial intelligence. What should be the social structure
of an NLSOM? What would be the (dis)advantages of having a monarchical rather
than a democratic structure? How can principles of NN economies be used to
maximize the total reward of a reinforcement learning NLSOM? In this work, we
identify, discuss, and try to answer some of these questions.