Mindstorms nelle Società della Mente basate sul Linguaggio Naturale

Abstract

Sia la "società della mente" di Minsky che il "learning to think" di Schmidhuber ispirano società diversificate di grandi reti neurali multimodali (NN) che risolvono problemi interrogandosi reciprocamente in una "tempesta mentale". Le recenti implementazioni di società della mente basate su NN consistono in grandi modelli linguistici (LLM) e altri esperti basati su NN che comunicano attraverso un'interfaccia in linguaggio naturale. In questo modo, superano i limiti dei singoli LLM, migliorando il ragionamento multimodale zero-shot. In queste società della mente basate sul linguaggio naturale (NLSOM), nuovi agenti — tutti comunicanti attraverso lo stesso linguaggio simbolico universale — possono essere aggiunti facilmente in modo modulare. Per dimostrare la potenza delle NLSOM, ne assembliamo e sperimentiamo diverse (con fino a 129 membri), sfruttando le tempeste mentali al loro interno per risolvere alcuni compiti pratici di intelligenza artificiale: risposta a domande visive, descrizione di immagini, sintesi di testo in immagini, generazione 3D, recupero egocentrico, AI incarnata e risoluzione generale di compiti basati sul linguaggio. Consideriamo questo come un punto di partenza verso NLSOM molto più grandi con miliardi di agenti — alcuni dei quali potrebbero essere umani. E con l'emergere di grandi società di menti eterogenee, molte nuove domande di ricerca sono improvvisamente diventate fondamentali per il futuro dell'intelligenza artificiale. Quale dovrebbe essere la struttura sociale di una NLSOM? Quali sarebbero i vantaggi (e gli svantaggi) di avere una struttura monarchica piuttosto che democratica? Come possono i principi delle economie delle NN essere utilizzati per massimizzare la ricompensa totale di una NLSOM basata sull'apprendimento per rinforzo? In questo lavoro, identifichiamo, discutiamo e cerchiamo di rispondere ad alcune di queste domande.

English

Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire diverse societies of large multimodal neural networks (NNs) that solve problems by interviewing each other in a "mindstorm." Recent implementations of NN-based societies of minds consist of large language models (LLMs) and other NN-based experts communicating through a natural language interface. In doing so, they overcome the limitations of single LLMs, improving multimodal zero-shot reasoning. In these natural language-based societies of mind (NLSOMs), new agents -- all communicating through the same universal symbolic language -- are easily added in a modular fashion. To demonstrate the power of NLSOMs, we assemble and experiment with several of them (having up to 129 members), leveraging mindstorms in them to solve some practical AI tasks: visual question answering, image captioning, text-to-image synthesis, 3D generation, egocentric retrieval, embodied AI, and general language-based task solving. We view this as a starting point towards much larger NLSOMs with billions of agents-some of which may be humans. And with this emergence of great societies of heterogeneous minds, many new research questions have suddenly become paramount to the future of artificial intelligence. What should be the social structure of an NLSOM? What would be the (dis)advantages of having a monarchical rather than a democratic structure? How can principles of NN economies be used to maximize the total reward of a reinforcement learning NLSOM? In this work, we identify, discuss, and try to answer some of these questions.

Mindstorms nelle Società della Mente basate sul Linguaggio Naturale

Mindstorms in Natural Language-Based Societies of Mind

Abstract

Support