Tempêtes mentales dans les sociétés de l'esprit basées sur le langage naturel
Mindstorms in Natural Language-Based Societies of Mind
May 26, 2023
Auteurs: Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
cs.AI
Résumé
La "société de l'esprit" de Minsky et l'approche "apprendre à penser" de Schmidhuber inspirent des sociétés diversifiées de grands réseaux de neurones multimodaux (NN) qui résolvent des problèmes en s'interrogeant mutuellement lors d'une "tempête mentale". Les récentes implémentations de ces sociétés de l'esprit basées sur des NN consistent en des modèles de langage de grande taille (LLM) et d'autres experts basés sur des NN communiquant via une interface en langage naturel. Ce faisant, elles surmontent les limitations des LLM individuels, améliorant le raisonnement multimodal en zero-shot. Dans ces sociétés de l'esprit basées sur le langage naturel (NLSOM), de nouveaux agents — tous communiquant via le même langage symbolique universel — peuvent être facilement ajoutés de manière modulaire. Pour démontrer la puissance des NLSOM, nous assemblons et expérimentons avec plusieurs d'entre elles (comportant jusqu'à 129 membres), exploitant les tempêtes mentales pour résoudre certaines tâches pratiques en IA : réponse à des questions visuelles, génération de légendes d'images, synthèse de texte à image, génération 3D, récupération égocentrique, IA incarnée et résolution générale de tâches basées sur le langage. Nous considérons cela comme un point de départ vers des NLSOM bien plus vastes, comprenant des milliards d'agents — dont certains pourraient être humains. Avec l'émergence de ces grandes sociétés d'esprits hétérogènes, de nombreuses nouvelles questions de recherche sont soudainement devenues cruciales pour l'avenir de l'intelligence artificielle. Quelle devrait être la structure sociale d'une NLSOM ? Quels seraient les (dés)avantages d'une structure monarchique plutôt que démocratique ? Comment les principes des économies de NN peuvent-ils être utilisés pour maximiser la récompense totale d'une NLSOM en apprentissage par renforcement ? Dans ce travail, nous identifions, discutons et tentons de répondre à certaines de ces questions.
English
Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire
diverse societies of large multimodal neural networks (NNs) that solve problems
by interviewing each other in a "mindstorm." Recent implementations of NN-based
societies of minds consist of large language models (LLMs) and other NN-based
experts communicating through a natural language interface. In doing so, they
overcome the limitations of single LLMs, improving multimodal zero-shot
reasoning. In these natural language-based societies of mind (NLSOMs), new
agents -- all communicating through the same universal symbolic language -- are
easily added in a modular fashion. To demonstrate the power of NLSOMs, we
assemble and experiment with several of them (having up to 129 members),
leveraging mindstorms in them to solve some practical AI tasks: visual question
answering, image captioning, text-to-image synthesis, 3D generation, egocentric
retrieval, embodied AI, and general language-based task solving. We view this
as a starting point towards much larger NLSOMs with billions of agents-some of
which may be humans. And with this emergence of great societies of
heterogeneous minds, many new research questions have suddenly become paramount
to the future of artificial intelligence. What should be the social structure
of an NLSOM? What would be the (dis)advantages of having a monarchical rather
than a democratic structure? How can principles of NN economies be used to
maximize the total reward of a reinforcement learning NLSOM? In this work, we
identify, discuss, and try to answer some of these questions.