ChatPaper.aiChatPaper

토큰을 넘어서는 사고: 뇌에서 영감을 받은 지능에서 인공 일반 지능의 인지적 기반과 그 사회적 영향까지

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact

July 1, 2025
저자: Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, Amgad Muneer, Anas Zafar, Ashmal Vayani, Maged Shoman, Abdelrahman B. M. Eldaly, Kai Zhang, Ferhat Sadak, Shaina Raza, Xinqi Fan, Ravid Shwartz-Ziv, Hong Yan, Vinjia Jain, Aman Chadha, Manoj Karkee, Jia Wu, Philip Torr, Seyedali Mirjalili
cs.AI

초록

기계가 인간과 같은 영역에서 진정으로 사고하고, 추론하며, 행동할 수 있을까? 이 오래된 질문은 여전히 인공 일반 지능(AGI) 추구를 형성하고 있다. GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4, Grok 3과 같은 모델들이 다중 모달 유창성과 부분적 추론 능력을 보여주며 점점 더 발전하고 있음에도 불구하고, 이러한 시스템들은 토큰 수준 예측에 의존하고 근거 있는 행위 능력이 부족하다는 근본적인 한계를 지니고 있다. 본 논문은 인공지능, 인지 신경과학, 심리학, 생성 모델, 에이전트 기반 시스템을 아우르는 AGI 개발에 대한 학제적 통합을 제시한다. 우리는 일반 지능의 아키텍처적 및 인지적 기초를 분석하며, 모듈식 추론, 지속적 메모리, 다중 에이전트 조정의 역할을 강조한다. 특히, 검색, 계획, 동적 도구 사용을 결합하여 더 적응적인 행동을 가능하게 하는 에이전트 기반 RAG 프레임워크의 부상을 강조한다. 우리는 정보 압축, 테스트 시간 적응, 훈련 없는 방법을 포함한 일반화 전략을 유연하고 도메인에 구애받지 않는 지능을 향한 중요한 경로로 논의한다. 비전-언어 모델(VLMs)은 단순히 인지 모듈로 재검토되는 것이 아니라, 체화된 이해와 협업적 작업 완성을 위한 진화하는 인터페이스로 재조명된다. 또한, 진정한 지능은 규모만으로부터가 아니라 메모리와 추론의 통합, 즉 압축이 적응적 행동을 가능하게 하는 모듈식, 상호작용적, 자기 개선적 구성 요소의 조화로부터 발생한다고 주장한다. 신경기호 시스템, 강화 학습, 인지 스캐폴딩의 발전을 바탕으로, 최근 아키텍처들이 통계적 학습과 목표 지향적 인지 사이의 격차를 어떻게 좁히기 시작했는지 탐구한다. 마지막으로, AGI로 가는 길에 직면한 주요 과학적, 기술적, 윤리적 도전 과제들을 식별한다.
English
Can machines truly think, reason and act in domains like humans? This enduring question continues to shape the pursuit of Artificial General Intelligence (AGI). Despite the growing capabilities of models such as GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4, and Grok 3, which exhibit multimodal fluency and partial reasoning, these systems remain fundamentally limited by their reliance on token-level prediction and lack of grounded agency. This paper offers a cross-disciplinary synthesis of AGI development, spanning artificial intelligence, cognitive neuroscience, psychology, generative models, and agent-based systems. We analyze the architectural and cognitive foundations of general intelligence, highlighting the role of modular reasoning, persistent memory, and multi-agent coordination. In particular, we emphasize the rise of Agentic RAG frameworks that combine retrieval, planning, and dynamic tool use to enable more adaptive behavior. We discuss generalization strategies, including information compression, test-time adaptation, and training-free methods, as critical pathways toward flexible, domain-agnostic intelligence. Vision-Language Models (VLMs) are reexamined not just as perception modules but as evolving interfaces for embodied understanding and collaborative task completion. We also argue that true intelligence arises not from scale alone but from the integration of memory and reasoning: an orchestration of modular, interactive, and self-improving components where compression enables adaptive behavior. Drawing on advances in neurosymbolic systems, reinforcement learning, and cognitive scaffolding, we explore how recent architectures begin to bridge the gap between statistical learning and goal-directed cognition. Finally, we identify key scientific, technical, and ethical challenges on the path to AGI.
PDF114July 2, 2025