mSCoRe: un benchmark multilingue e scalabile per il ragionamento basato su competenze di senso comune
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning
August 13, 2025
Autori: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) potenziati per il ragionamento hanno dimostrato capacità notevoli in compiti di ragionamento complesso. Tuttavia, il meccanismo alla base del loro utilizzo di diverse abilità di ragionamento umano rimane poco esplorato, specialmente per quanto riguarda il ragionamento di senso comune multilingue che coinvolge conoscenze quotidiane attraverso diverse lingue e culture. Per colmare questa lacuna, proponiamo un benchmark multilingue e scalabile per il ragionamento di senso comune basato su abilità (mSCoRe).
Il nostro benchmark incorpora tre componenti chiave progettate per valutare sistematicamente le capacità di ragionamento degli LLM, tra cui: (1) una nuova tassonomia delle abilità di ragionamento che consente un'analisi granulare dei processi di ragionamento dei modelli, (2) una pipeline robusta per la sintesi dei dati specificamente adattata per la valutazione del ragionamento di senso comune, e (3) un framework di scalabilità della complessità che permette alla difficoltà dei compiti di aumentare dinamicamente in parallelo ai futuri miglioramenti delle capacità degli LLM.
Esperimenti estesi su otto LLM all'avanguardia di dimensioni e approcci di addestramento vari dimostrano che mSCoRe rimane significativamente impegnativo per i modelli attuali, specialmente a livelli di complessità più elevati. I nostri risultati rivelano i limiti di tali modelli potenziati per il ragionamento quando confrontati con il senso comune generale e culturale multilingue sfumato. Forniamo inoltre un'analisi dettagliata dei processi di ragionamento dei modelli, suggerendo direzioni future per migliorare le capacità di ragionamento di senso comune multilingue.
English
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have
shown remarkable capabilities in complex reasoning tasks. However, the
mechanism underlying their utilization of different human reasoning skills
remains poorly investigated, especially for multilingual commonsense reasoning
that involves everyday knowledge across different languages and cultures. To
address this gap, we propose a Multilingual and Scalable Benchmark for
Skill-based Commonsense Reasoning (mSCoRe).
Our benchmark incorporates three key components that are designed to
systematically evaluate LLM's reasoning capabilities, including: (1) a novel
taxonomy of reasoning skills that enables fine-grained analysis of models'
reasoning processes, (2) a robust data synthesis pipeline tailored specifically
for commonsense reasoning evaluation, and (3) a complexity scaling framework
allowing task difficulty to scale dynamically alongside future improvements in
LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying
sizes and training approaches demonstrate that mSCoRe remains
significantly challenging for current models, particularly at higher complexity
levels. Our results reveal the limitations of such reasoning-reinforced models
when confronted with nuanced multilingual general and cultural commonsense. We
further provide detailed analysis on the models' reasoning processes,
suggesting future directions for improving multilingual commonsense reasoning
capabilities.