Mindstorms in op natuurlijke taal gebaseerde gemeenschappen van geest
Mindstorms in Natural Language-Based Societies of Mind
May 26, 2023
Auteurs: Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
cs.AI
Samenvatting
Zowel Minsky's "society of mind" als Schmidhuber's "learning to think" inspireren
diverse samenlevingen van grote multimodale neurale netwerken (NNs) die problemen
oplossen door elkaar te interviewen in een "mindstorm." Recente implementaties van
NN-gebaseerde samenlevingen van geesten bestaan uit grote taalmodellen (LLMs) en
andere NN-gebaseerde experts die communiceren via een natuurlijke taalinterface.
Hierdoor overkomen ze de beperkingen van individuele LLMs en verbeteren ze
multimodaal zero-shot redeneren. In deze op natuurlijke taal gebaseerde
samenlevingen van geesten (NLSOMs) kunnen nieuwe agents — die allemaal communiceren
via dezelfde universele symbolische taal — eenvoudig op een modulaire manier worden
toegevoegd. Om de kracht van NLSOMs te demonstreren, assembleren en experimenteren
we met verschillende ervan (met tot 129 leden), waarbij we mindstorms benutten om
enkele praktische AI-taken op te lossen: visuele vraagbeantwoording, beeldbeschrijving,
tekst-naar-beeld synthese, 3D-generatie, egocentrisch ophalen, embodied AI, en
algemene taalgebaseerde taakoplossing. We zien dit als een startpunt naar veel
grotere NLSOMs met miljarden agents — waarvan sommige mensen kunnen zijn. En met
de opkomst van grote samenlevingen van heterogene geesten, zijn veel nieuwe
onderzoeksvragen plotseling van cruciaal belang geworden voor de toekomst van
kunstmatige intelligentie. Wat zou de sociale structuur van een NLSOM moeten zijn?
Wat zouden de (dis)voordelen zijn van een monarchische in plaats van een democratische
structuur? Hoe kunnen principes van NN-economieën worden gebruikt om de totale
beloning van een reinforcement learning NLSOM te maximaliseren? In dit werk
identificeren, bespreken en proberen we enkele van deze vragen te beantwoorden.
English
Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire
diverse societies of large multimodal neural networks (NNs) that solve problems
by interviewing each other in a "mindstorm." Recent implementations of NN-based
societies of minds consist of large language models (LLMs) and other NN-based
experts communicating through a natural language interface. In doing so, they
overcome the limitations of single LLMs, improving multimodal zero-shot
reasoning. In these natural language-based societies of mind (NLSOMs), new
agents -- all communicating through the same universal symbolic language -- are
easily added in a modular fashion. To demonstrate the power of NLSOMs, we
assemble and experiment with several of them (having up to 129 members),
leveraging mindstorms in them to solve some practical AI tasks: visual question
answering, image captioning, text-to-image synthesis, 3D generation, egocentric
retrieval, embodied AI, and general language-based task solving. We view this
as a starting point towards much larger NLSOMs with billions of agents-some of
which may be humans. And with this emergence of great societies of
heterogeneous minds, many new research questions have suddenly become paramount
to the future of artificial intelligence. What should be the social structure
of an NLSOM? What would be the (dis)advantages of having a monarchical rather
than a democratic structure? How can principles of NN economies be used to
maximize the total reward of a reinforcement learning NLSOM? In this work, we
identify, discuss, and try to answer some of these questions.