Размышления за пределами токенов: от биологически вдохновленного интеллекта к когнитивным основам искусственного общего интеллекта и его влиянию на общество
Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact
July 1, 2025
Авторы: Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, Amgad Muneer, Anas Zafar, Ashmal Vayani, Maged Shoman, Abdelrahman B. M. Eldaly, Kai Zhang, Ferhat Sadak, Shaina Raza, Xinqi Fan, Ravid Shwartz-Ziv, Hong Yan, Vinjia Jain, Aman Chadha, Manoj Karkee, Jia Wu, Philip Torr, Seyedali Mirjalili
cs.AI
Аннотация
Способны ли машины по-настоящему мыслить, рассуждать и действовать в различных областях подобно людям? Этот вечный вопрос продолжает формировать поиск Искусственного Общего Интеллекта (AGI). Несмотря на растущие возможности моделей, таких как GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 и Grok 3, которые демонстрируют мультимодальную гибкость и частичное рассуждение, эти системы остаются принципиально ограниченными из-за их зависимости от предсказания на уровне токенов и отсутствия заземлённого агентства. В данной статье предлагается междисциплинарный синтез развития AGI, охватывающий искусственный интеллект, когнитивную нейронауку, психологию, генеративные модели и системы на основе агентов. Мы анализируем архитектурные и когнитивные основы общего интеллекта, подчеркивая роль модульного рассуждения, устойчивой памяти и координации множества агентов. В частности, мы акцентируем внимание на появлении агентских RAG-фреймворков, которые сочетают поиск, планирование и динамическое использование инструментов для обеспечения более адаптивного поведения. Мы обсуждаем стратегии обобщения, включая сжатие информации, адаптацию во время тестирования и методы без обучения, как ключевые пути к гибкому, доменно-независимому интеллекту. Модели "Видение-Язык" (VLMs) переосмысливаются не только как модули восприятия, но и как развивающиеся интерфейсы для воплощённого понимания и совместного выполнения задач. Мы также утверждаем, что истинный интеллект возникает не только за счёт масштаба, но благодаря интеграции памяти и рассуждения: оркестровке модульных, интерактивных и самоулучшающихся компонентов, где сжатие обеспечивает адаптивное поведение. Опираясь на достижения в нейросимволических системах, обучении с подкреплением и когнитивных каркасах, мы исследуем, как современные архитектуры начинают сокращать разрыв между статистическим обучением и целенаправленным познанием. Наконец, мы выделяем ключевые научные, технические и этические вызовы на пути к AGI.
English
Can machines truly think, reason and act in domains like humans? This
enduring question continues to shape the pursuit of Artificial General
Intelligence (AGI). Despite the growing capabilities of models such as GPT-4.5,
DeepSeek, Claude 3.5 Sonnet, Phi-4, and Grok 3, which exhibit multimodal
fluency and partial reasoning, these systems remain fundamentally limited by
their reliance on token-level prediction and lack of grounded agency. This
paper offers a cross-disciplinary synthesis of AGI development, spanning
artificial intelligence, cognitive neuroscience, psychology, generative models,
and agent-based systems. We analyze the architectural and cognitive foundations
of general intelligence, highlighting the role of modular reasoning, persistent
memory, and multi-agent coordination. In particular, we emphasize the rise of
Agentic RAG frameworks that combine retrieval, planning, and dynamic tool use
to enable more adaptive behavior. We discuss generalization strategies,
including information compression, test-time adaptation, and training-free
methods, as critical pathways toward flexible, domain-agnostic intelligence.
Vision-Language Models (VLMs) are reexamined not just as perception modules but
as evolving interfaces for embodied understanding and collaborative task
completion. We also argue that true intelligence arises not from scale alone
but from the integration of memory and reasoning: an orchestration of modular,
interactive, and self-improving components where compression enables adaptive
behavior. Drawing on advances in neurosymbolic systems, reinforcement learning,
and cognitive scaffolding, we explore how recent architectures begin to bridge
the gap between statistical learning and goal-directed cognition. Finally, we
identify key scientific, technical, and ethical challenges on the path to AGI.