Mindstorms en Sociedades de la Mente Basadas en Lenguaje Natural
Mindstorms in Natural Language-Based Societies of Mind
May 26, 2023
Autores: Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Piękos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanić, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber
cs.AI
Resumen
Tanto la "sociedad de la mente" de Minsky como el "aprender a pensar" de Schmidhuber inspiran sociedades diversas de grandes redes neuronales multimodales (NN) que resuelven problemas entrevistándose mutuamente en una "tormenta mental". Las implementaciones recientes de sociedades de mentes basadas en NN consisten en grandes modelos de lenguaje (LLM) y otros expertos basados en NN que se comunican a través de una interfaz de lenguaje natural. Al hacerlo, superan las limitaciones de los LLM individuales, mejorando el razonamiento multimodal de cero disparos. En estas sociedades de mentes basadas en lenguaje natural (NLSOM), nuevos agentes —todos comunicándose a través del mismo lenguaje simbólico universal— se añaden fácilmente de manera modular. Para demostrar el poder de las NLSOM, ensamblamos y experimentamos con varias de ellas (con hasta 129 miembros), aprovechando las tormentas mentales en ellas para resolver algunas tareas prácticas de IA: respuesta a preguntas visuales, generación de subtítulos de imágenes, síntesis de texto a imagen, generación 3D, recuperación egocéntrica, IA encarnada y resolución general de tareas basadas en lenguaje. Vemos esto como un punto de partida hacia NLSOM mucho más grandes con miles de millones de agentes, algunos de los cuales podrían ser humanos. Y con este surgimiento de grandes sociedades de mentes heterogéneas, muchas nuevas preguntas de investigación se han vuelto de repente fundamentales para el futuro de la inteligencia artificial. ¿Cuál debería ser la estructura social de una NLSOM? ¿Cuáles serían las (des)ventajas de tener una estructura monárquica en lugar de una democrática? ¿Cómo pueden usarse los principios de las economías de NN para maximizar la recompensa total de una NLSOM de aprendizaje por refuerzo? En este trabajo, identificamos, discutimos y tratamos de responder algunas de estas preguntas.
English
Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire
diverse societies of large multimodal neural networks (NNs) that solve problems
by interviewing each other in a "mindstorm." Recent implementations of NN-based
societies of minds consist of large language models (LLMs) and other NN-based
experts communicating through a natural language interface. In doing so, they
overcome the limitations of single LLMs, improving multimodal zero-shot
reasoning. In these natural language-based societies of mind (NLSOMs), new
agents -- all communicating through the same universal symbolic language -- are
easily added in a modular fashion. To demonstrate the power of NLSOMs, we
assemble and experiment with several of them (having up to 129 members),
leveraging mindstorms in them to solve some practical AI tasks: visual question
answering, image captioning, text-to-image synthesis, 3D generation, egocentric
retrieval, embodied AI, and general language-based task solving. We view this
as a starting point towards much larger NLSOMs with billions of agents-some of
which may be humans. And with this emergence of great societies of
heterogeneous minds, many new research questions have suddenly become paramount
to the future of artificial intelligence. What should be the social structure
of an NLSOM? What would be the (dis)advantages of having a monarchical rather
than a democratic structure? How can principles of NN economies be used to
maximize the total reward of a reinforcement learning NLSOM? In this work, we
identify, discuss, and try to answer some of these questions.