Mindstorms in op natuurlijke taal gebaseerde gemeenschappen van geest

Samenvatting

Zowel Minsky's "society of mind" als Schmidhuber's "learning to think" inspireren diverse samenlevingen van grote multimodale neurale netwerken (NNs) die problemen oplossen door elkaar te interviewen in een "mindstorm." Recente implementaties van NN-gebaseerde samenlevingen van geesten bestaan uit grote taalmodellen (LLMs) en andere NN-gebaseerde experts die communiceren via een natuurlijke taalinterface. Hierdoor overkomen ze de beperkingen van individuele LLMs en verbeteren ze multimodaal zero-shot redeneren. In deze op natuurlijke taal gebaseerde samenlevingen van geesten (NLSOMs) kunnen nieuwe agents — die allemaal communiceren via dezelfde universele symbolische taal — eenvoudig op een modulaire manier worden toegevoegd. Om de kracht van NLSOMs te demonstreren, assembleren en experimenteren we met verschillende ervan (met tot 129 leden), waarbij we mindstorms benutten om enkele praktische AI-taken op te lossen: visuele vraagbeantwoording, beeldbeschrijving, tekst-naar-beeld synthese, 3D-generatie, egocentrisch ophalen, embodied AI, en algemene taalgebaseerde taakoplossing. We zien dit als een startpunt naar veel grotere NLSOMs met miljarden agents — waarvan sommige mensen kunnen zijn. En met de opkomst van grote samenlevingen van heterogene geesten, zijn veel nieuwe onderzoeksvragen plotseling van cruciaal belang geworden voor de toekomst van kunstmatige intelligentie. Wat zou de sociale structuur van een NLSOM moeten zijn? Wat zouden de (dis)voordelen zijn van een monarchische in plaats van een democratische structuur? Hoe kunnen principes van NN-economieën worden gebruikt om de totale beloning van een reinforcement learning NLSOM te maximaliseren? In dit werk identificeren, bespreken en proberen we enkele van deze vragen te beantwoorden.

English

Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire diverse societies of large multimodal neural networks (NNs) that solve problems by interviewing each other in a "mindstorm." Recent implementations of NN-based societies of minds consist of large language models (LLMs) and other NN-based experts communicating through a natural language interface. In doing so, they overcome the limitations of single LLMs, improving multimodal zero-shot reasoning. In these natural language-based societies of mind (NLSOMs), new agents -- all communicating through the same universal symbolic language -- are easily added in a modular fashion. To demonstrate the power of NLSOMs, we assemble and experiment with several of them (having up to 129 members), leveraging mindstorms in them to solve some practical AI tasks: visual question answering, image captioning, text-to-image synthesis, 3D generation, egocentric retrieval, embodied AI, and general language-based task solving. We view this as a starting point towards much larger NLSOMs with billions of agents-some of which may be humans. And with this emergence of great societies of heterogeneous minds, many new research questions have suddenly become paramount to the future of artificial intelligence. What should be the social structure of an NLSOM? What would be the (dis)advantages of having a monarchical rather than a democratic structure? How can principles of NN economies be used to maximize the total reward of a reinforcement learning NLSOM? In this work, we identify, discuss, and try to answer some of these questions.

Mindstorms in op natuurlijke taal gebaseerde gemeenschappen van geest

Mindstorms in Natural Language-Based Societies of Mind

Samenvatting

Support