ChatPaper.aiChatPaper

トークンを超えて考える:脳に着想を得た知能から人工汎用知能の認知的基盤とその社会的影響へ

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact

July 1, 2025
著者: Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, Amgad Muneer, Anas Zafar, Ashmal Vayani, Maged Shoman, Abdelrahman B. M. Eldaly, Kai Zhang, Ferhat Sadak, Shaina Raza, Xinqi Fan, Ravid Shwartz-Ziv, Hong Yan, Vinjia Jain, Aman Chadha, Manoj Karkee, Jia Wu, Philip Torr, Seyedali Mirjalili
cs.AI

要旨

機械は本当に人間のように思考し、推論し、行動できるのか?この永続的な問いは、人工汎用知能(AGI)の追求を形作り続けている。GPT-4.5、DeepSeek、Claude 3.5 Sonnet、Phi-4、Grok 3などのモデルが多様なモードでの流暢さや部分的な推論能力を示す一方で、これらのシステムはトークンレベルの予測への依存と、根拠のある主体性の欠如によって根本的に制限されている。本論文は、人工知能、認知神経科学、心理学、生成モデル、エージェントベースのシステムにまたがるAGI開発の学際的な統合を提供する。我々は、汎用知能のアーキテクチャと認知的基盤を分析し、モジュール化された推論、永続的な記憶、マルチエージェント協調の役割を強調する。特に、検索、計画、動的なツール使用を組み合わせることで、より適応的な行動を可能にするエージェンシックRAGフレームワークの台頭に注目する。情報圧縮、テスト時適応、トレーニング不要の手法を含む一般化戦略を、柔軟でドメインに依存しない知能への重要な道筋として議論する。視覚言語モデル(VLM)は、単なる知覚モジュールとしてだけでなく、具現化された理解と協調的なタスク完了のための進化するインターフェースとして再検討される。また、真の知能はスケールだけではなく、記憶と推論の統合から生まれることを主張する。モジュール化され、相互作用し、自己改善するコンポーネントのオーケストレーションにおいて、圧縮が適応的な行動を可能にする。神経記号システム、強化学習、認知的足場づけの進展を踏まえ、最近のアーキテクチャが統計的学習と目標指向の認知の間のギャップを埋め始めている方法を探る。最後に、AGIへの道のりにおける主要な科学的、技術的、倫理的課題を特定する。
English
Can machines truly think, reason and act in domains like humans? This enduring question continues to shape the pursuit of Artificial General Intelligence (AGI). Despite the growing capabilities of models such as GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4, and Grok 3, which exhibit multimodal fluency and partial reasoning, these systems remain fundamentally limited by their reliance on token-level prediction and lack of grounded agency. This paper offers a cross-disciplinary synthesis of AGI development, spanning artificial intelligence, cognitive neuroscience, psychology, generative models, and agent-based systems. We analyze the architectural and cognitive foundations of general intelligence, highlighting the role of modular reasoning, persistent memory, and multi-agent coordination. In particular, we emphasize the rise of Agentic RAG frameworks that combine retrieval, planning, and dynamic tool use to enable more adaptive behavior. We discuss generalization strategies, including information compression, test-time adaptation, and training-free methods, as critical pathways toward flexible, domain-agnostic intelligence. Vision-Language Models (VLMs) are reexamined not just as perception modules but as evolving interfaces for embodied understanding and collaborative task completion. We also argue that true intelligence arises not from scale alone but from the integration of memory and reasoning: an orchestration of modular, interactive, and self-improving components where compression enables adaptive behavior. Drawing on advances in neurosymbolic systems, reinforcement learning, and cognitive scaffolding, we explore how recent architectures begin to bridge the gap between statistical learning and goal-directed cognition. Finally, we identify key scientific, technical, and ethical challenges on the path to AGI.
PDF104July 2, 2025