Denken über Tokens hinaus: Von der hirninspirierten Intelligenz zu kognitiven Grundlagen für Künstliche Allgemeine Intelligenz und deren gesellschaftlichen Auswirkungen
Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact
July 1, 2025
Autoren: Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, Amgad Muneer, Anas Zafar, Ashmal Vayani, Maged Shoman, Abdelrahman B. M. Eldaly, Kai Zhang, Ferhat Sadak, Shaina Raza, Xinqi Fan, Ravid Shwartz-Ziv, Hong Yan, Vinjia Jain, Aman Chadha, Manoj Karkee, Jia Wu, Philip Torr, Seyedali Mirjalili
cs.AI
Zusammenfassung
Können Maschinen wirklich denken, schlussfolgern und in Domänen wie Menschen handeln? Diese beständige Frage prägt weiterhin das Streben nach Künstlicher Allgemeiner Intelligenz (AGI). Trotz der wachsenden Fähigkeiten von Modellen wie GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 und Grok 3, die multimodale Flüssigkeit und teilweise Schlussfolgerungsfähigkeit zeigen, bleiben diese Systeme grundlegend durch ihre Abhängigkeit von Token-basierter Vorhersage und den Mangel an verankertem Handlungsvermögen begrenzt. Dieses Papier bietet eine interdisziplinäre Synthese der AGI-Entwicklung, die Künstliche Intelligenz, kognitive Neurowissenschaften, Psychologie, generative Modelle und agentenbasierte Systeme umfasst. Wir analysieren die architektonischen und kognitiven Grundlagen der allgemeinen Intelligenz und heben die Rolle von modularer Schlussfolgerung, persistentem Gedächtnis und Multi-Agenten-Koordination hervor. Insbesondere betonen wir den Aufstieg von Agentic-RAG-Frameworks, die Retrieval, Planung und dynamische Werkzeugnutzung kombinieren, um adaptiveres Verhalten zu ermöglichen. Wir diskutieren Generalisierungsstrategien, einschließlich Informationskompression, Testzeit-Anpassung und trainingsfreie Methoden, als kritische Wege hin zu flexibler, domänenunabhängiger Intelligenz. Vision-Language-Modelle (VLMs) werden nicht nur als Wahrnehmungsmodule, sondern als sich entwickelnde Schnittstellen für verkörpertes Verständnis und kollaborative Aufgabenbewältigung neu betrachtet. Wir argumentieren auch, dass wahre Intelligenz nicht allein aus Skalierung entsteht, sondern aus der Integration von Gedächtnis und Schlussfolgerung: einer Orchestrierung modularer, interaktiver und selbstverbessernder Komponenten, bei der Kompression adaptives Verhalten ermöglicht. Unter Bezugnahme auf Fortschritte in neurosymbolischen Systemen, bestärkendem Lernen und kognitiven Gerüsten erforschen wir, wie aktuelle Architekturen beginnen, die Lücke zwischen statistischem Lernen und zielgerichteter Kognition zu überbrücken. Schließlich identifizieren wir zentrale wissenschaftliche, technische und ethische Herausforderungen auf dem Weg zu AGI.
English
Can machines truly think, reason and act in domains like humans? This
enduring question continues to shape the pursuit of Artificial General
Intelligence (AGI). Despite the growing capabilities of models such as GPT-4.5,
DeepSeek, Claude 3.5 Sonnet, Phi-4, and Grok 3, which exhibit multimodal
fluency and partial reasoning, these systems remain fundamentally limited by
their reliance on token-level prediction and lack of grounded agency. This
paper offers a cross-disciplinary synthesis of AGI development, spanning
artificial intelligence, cognitive neuroscience, psychology, generative models,
and agent-based systems. We analyze the architectural and cognitive foundations
of general intelligence, highlighting the role of modular reasoning, persistent
memory, and multi-agent coordination. In particular, we emphasize the rise of
Agentic RAG frameworks that combine retrieval, planning, and dynamic tool use
to enable more adaptive behavior. We discuss generalization strategies,
including information compression, test-time adaptation, and training-free
methods, as critical pathways toward flexible, domain-agnostic intelligence.
Vision-Language Models (VLMs) are reexamined not just as perception modules but
as evolving interfaces for embodied understanding and collaborative task
completion. We also argue that true intelligence arises not from scale alone
but from the integration of memory and reasoning: an orchestration of modular,
interactive, and self-improving components where compression enables adaptive
behavior. Drawing on advances in neurosymbolic systems, reinforcement learning,
and cognitive scaffolding, we explore how recent architectures begin to bridge
the gap between statistical learning and goal-directed cognition. Finally, we
identify key scientific, technical, and ethical challenges on the path to AGI.