Майндстормы в обществах разума на основе естественного языка

Аннотация

Идеи Минского о "сообществе разума" и Шмидхубера о "обучении мышлению" вдохновляют создание разнообразных сообществ крупных мультимодальных нейронных сетей (НС), которые решают задачи, взаимодействуя друг с другом в процессе "мозгового штурма". Современные реализации таких сообществ разума на основе НС включают крупные языковые модели (LLM) и других экспертов на основе НС, взаимодействующих через интерфейс естественного языка. Таким образом, они преодолевают ограничения отдельных LLM, улучшая мультимодальные рассуждения в условиях zero-shot. В этих сообществах разума на основе естественного языка (NLSOM) новые агенты — все использующие один и тот же универсальный символический язык — легко добавляются модульным образом. Чтобы продемонстрировать мощь NLSOM, мы собираем и экспериментируем с несколькими из них (до 129 участников), используя мозговые штурмы для решения практических задач ИИ: визуального ответа на вопросы, генерации подписей к изображениям, синтеза изображений из текста, 3D-генерации, эгоцентрического поиска, воплощённого ИИ и решения задач на основе языка. Мы рассматриваем это как отправную точку для создания гораздо более крупных NLSOM с миллиардами агентов, среди которых могут быть и люди. С появлением таких масштабных сообществ разнородных разумов многие новые исследовательские вопросы внезапно стали ключевыми для будущего искусственного интеллекта. Какой должна быть социальная структура NLSOM? Каковы будут (не)достатки монархической структуры по сравнению с демократической? Как можно использовать принципы экономики НС для максимизации общего вознаграждения в NLSOM, основанном на обучении с подкреплением? В этой работе мы определяем, обсуждаем и пытаемся ответить на некоторые из этих вопросов.

English

Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire diverse societies of large multimodal neural networks (NNs) that solve problems by interviewing each other in a "mindstorm." Recent implementations of NN-based societies of minds consist of large language models (LLMs) and other NN-based experts communicating through a natural language interface. In doing so, they overcome the limitations of single LLMs, improving multimodal zero-shot reasoning. In these natural language-based societies of mind (NLSOMs), new agents -- all communicating through the same universal symbolic language -- are easily added in a modular fashion. To demonstrate the power of NLSOMs, we assemble and experiment with several of them (having up to 129 members), leveraging mindstorms in them to solve some practical AI tasks: visual question answering, image captioning, text-to-image synthesis, 3D generation, egocentric retrieval, embodied AI, and general language-based task solving. We view this as a starting point towards much larger NLSOMs with billions of agents-some of which may be humans. And with this emergence of great societies of heterogeneous minds, many new research questions have suddenly become paramount to the future of artificial intelligence. What should be the social structure of an NLSOM? What would be the (dis)advantages of having a monarchical rather than a democratic structure? How can principles of NN economies be used to maximize the total reward of a reinforcement learning NLSOM? In this work, we identify, discuss, and try to answer some of these questions.

Майндстормы в обществах разума на основе естественного языка

Mindstorms in Natural Language-Based Societies of Mind

Аннотация

Support