Penser au-delà des tokens : De l'intelligence inspirée par le cerveau aux fondements cognitifs pour l'intelligence artificielle générale et son impact sociétal
Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact
July 1, 2025
Auteurs: Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, Amgad Muneer, Anas Zafar, Ashmal Vayani, Maged Shoman, Abdelrahman B. M. Eldaly, Kai Zhang, Ferhat Sadak, Shaina Raza, Xinqi Fan, Ravid Shwartz-Ziv, Hong Yan, Vinjia Jain, Aman Chadha, Manoj Karkee, Jia Wu, Philip Torr, Seyedali Mirjalili
cs.AI
Résumé
Les machines peuvent-elles véritablement penser, raisonner et agir dans des domaines comme les humains ? Cette question persistante continue de façonner la quête de l'Intelligence Artificielle Générale (IAG). Malgré les capacités croissantes de modèles tels que GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 et Grok 3, qui démontrent une fluidité multimodale et un raisonnement partiel, ces systèmes restent fondamentalement limités par leur dépendance à la prédiction au niveau des tokens et leur absence d'agencement ancré. Ce document propose une synthèse interdisciplinaire du développement de l'IAG, couvrant l'intelligence artificielle, les neurosciences cognitives, la psychologie, les modèles génératifs et les systèmes basés sur des agents. Nous analysons les fondements architecturaux et cognitifs de l'intelligence générale, en mettant en lumière le rôle du raisonnement modulaire, de la mémoire persistante et de la coordination multi-agents. En particulier, nous soulignons l'émergence des frameworks Agentic RAG qui combinent la récupération, la planification et l'utilisation dynamique d'outils pour permettre un comportement plus adaptatif. Nous discutons des stratégies de généralisation, y compris la compression d'information, l'adaptation au moment du test et les méthodes sans entraînement, comme des voies critiques vers une intelligence flexible et indépendante du domaine. Les modèles vision-langage (VLMs) sont réexaminés non seulement comme des modules de perception, mais aussi comme des interfaces évolutives pour la compréhension incarnée et l'accomplissement collaboratif de tâches. Nous soutenons également que la véritable intelligence ne découle pas uniquement de l'échelle, mais de l'intégration de la mémoire et du raisonnement : une orchestration de composants modulaires, interactifs et auto-améliorants où la compression permet un comportement adaptatif. En nous appuyant sur les avancées des systèmes neurosymboliques, de l'apprentissage par renforcement et de l'échafaudage cognitif, nous explorons comment les architectures récentes commencent à combler le fossé entre l'apprentissage statistique et la cognition dirigée par des objectifs. Enfin, nous identifions les principaux défis scientifiques, techniques et éthiques sur le chemin vers l'IAG.
English
Can machines truly think, reason and act in domains like humans? This
enduring question continues to shape the pursuit of Artificial General
Intelligence (AGI). Despite the growing capabilities of models such as GPT-4.5,
DeepSeek, Claude 3.5 Sonnet, Phi-4, and Grok 3, which exhibit multimodal
fluency and partial reasoning, these systems remain fundamentally limited by
their reliance on token-level prediction and lack of grounded agency. This
paper offers a cross-disciplinary synthesis of AGI development, spanning
artificial intelligence, cognitive neuroscience, psychology, generative models,
and agent-based systems. We analyze the architectural and cognitive foundations
of general intelligence, highlighting the role of modular reasoning, persistent
memory, and multi-agent coordination. In particular, we emphasize the rise of
Agentic RAG frameworks that combine retrieval, planning, and dynamic tool use
to enable more adaptive behavior. We discuss generalization strategies,
including information compression, test-time adaptation, and training-free
methods, as critical pathways toward flexible, domain-agnostic intelligence.
Vision-Language Models (VLMs) are reexamined not just as perception modules but
as evolving interfaces for embodied understanding and collaborative task
completion. We also argue that true intelligence arises not from scale alone
but from the integration of memory and reasoning: an orchestration of modular,
interactive, and self-improving components where compression enables adaptive
behavior. Drawing on advances in neurosymbolic systems, reinforcement learning,
and cognitive scaffolding, we explore how recent architectures begin to bridge
the gap between statistical learning and goal-directed cognition. Finally, we
identify key scientific, technical, and ethical challenges on the path to AGI.