Evaluatie van cognitieve leeftijdsafstemming in interactieve AI-agenten

Samenvatting

Hoewel agentische AI en haar kernmodellen, de multimodale grote taalmodellen (MLLM's), veelbelovend zijn gebleken in taal- en visuele redeneringen op gebieden variërend van het dagelijks leven tot geavanceerd wetenschappelijk onderzoek, blijft er een diepe kloof bestaan tussen kunstmatige en menselijke intelligentie. Ondanks de integratie van krachtige tools en geavanceerde MLLM's, falen state-of-the-art AI-agenten vaak bij fundamentele, ogenschijnlijk eenvoudige taken die een kind moeiteloos kan oplossen. Geïnspireerd door de Wechsler Intelligentietest voor Kinderen (WISC) introduceren we ChildAgentEval, de eerste psychometrisch onderbouwde interactieve benchmark voor het evalueren van cognitieve leeftijdsafstemming in MLLM-gebaseerde agenten. ChildAgentEval vergelijkt systematisch de redeneerprestaties van verschillende MLLM-gebaseerde interactieve agenten met leeftijdsspecifieke menselijke ontwikkelingsstadia, en legt daarmee bloot waar huidige agentische AI-systemen leeftijdsspecifiek cognitief gedrag wel en niet kunnen simuleren.

English

While agentic AI and its core multimodal large language models (MLLMs) have demonstrated remarkable promise in language and visual reasoning across domains ranging from daily life to advanced scientific research, a profound gap remains between artificial and human intelligence. Despite the integration of powerful tools and advanced MLLMs, state-of-the-art AI agents frequently fail at foundational, seemingly simple tasks that a child can resolve with ease. Inspired by the Wechsler Intelligence Scale for Children (WISC), we introduce ChildAgentEval, the first psychometrically grounded interactive benchmark for evaluating cognitive age alignment in MLLM-based agents. ChildAgentEval systematically compares the reasoning performance of various MLLM-based interactive agents against age-specific human developmental stages, exposing where current agentic AI systems can and cannot simulate age-specific cognitive behavior.