mSCoRe: een meertalige en schaalbare benchmark voor vaardigheidsgericht gezond verstand redeneren
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning
August 13, 2025
Auteurs: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Samenvatting
Recente vooruitgang in redenering-versterkte Large Language Models (LLMs) heeft opmerkelijke capaciteiten getoond in complexe redeneertaken. Het mechanisme dat ten grondslag ligt aan hun gebruik van verschillende menselijke redeneervaardigheden blijft echter slecht onderzocht, vooral voor meertalig gezond verstand redeneren dat alledaagse kennis omvat over verschillende talen en culturen. Om deze kloof te dichten, stellen we een Meertalige en Schaalbare Benchmark voor Vaardigheidsgebaseerd Gezond Verstand Redeneren (mSCoRe) voor.
Onze benchmark omvat drie belangrijke componenten die zijn ontworpen om de redeneercapaciteiten van LLM's systematisch te evalueren, waaronder: (1) een nieuwe taxonomie van redeneervaardigheden die een fijnmazige analyse van de redeneerprocessen van modellen mogelijk maakt, (2) een robuuste datasynthesepijplijn die specifiek is afgestemd op de evaluatie van gezond verstand redeneren, en (3) een complexiteitsschalingskader dat de taakmoeilijkheid dynamisch laat meeschalen met toekomstige verbeteringen in de capaciteiten van LLM's. Uitgebreide experimenten op acht state-of-the-art LLM's van verschillende grootten en trainingsbenaderingen tonen aan dat mSCoRe aanzienlijk uitdagend blijft voor huidige modellen, vooral op hogere complexiteitsniveaus. Onze resultaten onthullen de beperkingen van dergelijke redenering-versterkte modellen wanneer ze worden geconfronteerd met genuanceerd meertalig algemeen en cultureel gezond verstand. We bieden verder een gedetailleerde analyse van de redeneerprocessen van de modellen, wat toekomstige richtingen suggereert voor het verbeteren van meertalige gezond verstand redeneercapaciteiten.
English
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have
shown remarkable capabilities in complex reasoning tasks. However, the
mechanism underlying their utilization of different human reasoning skills
remains poorly investigated, especially for multilingual commonsense reasoning
that involves everyday knowledge across different languages and cultures. To
address this gap, we propose a Multilingual and Scalable Benchmark for
Skill-based Commonsense Reasoning (mSCoRe).
Our benchmark incorporates three key components that are designed to
systematically evaluate LLM's reasoning capabilities, including: (1) a novel
taxonomy of reasoning skills that enables fine-grained analysis of models'
reasoning processes, (2) a robust data synthesis pipeline tailored specifically
for commonsense reasoning evaluation, and (3) a complexity scaling framework
allowing task difficulty to scale dynamically alongside future improvements in
LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying
sizes and training approaches demonstrate that mSCoRe remains
significantly challenging for current models, particularly at higher complexity
levels. Our results reveal the limitations of such reasoning-reinforced models
when confronted with nuanced multilingual general and cultural commonsense. We
further provide detailed analysis on the models' reasoning processes,
suggesting future directions for improving multilingual commonsense reasoning
capabilities.