mSCoRe: um Benchmark Multilíngue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning
August 13, 2025
Autores: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) reforçados para raciocínio têm demonstrado capacidades notáveis em tarefas complexas de raciocínio. No entanto, o mecanismo subjacente à sua utilização de diferentes habilidades de raciocínio humano permanece pouco investigado, especialmente para o raciocínio de senso comum multilingue que envolve conhecimentos cotidianos de diferentes idiomas e culturas. Para abordar essa lacuna, propomos um Benchmark Multilingue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades (mSCoRe). Nosso benchmark incorpora três componentes principais projetados para avaliar sistematicamente as capacidades de raciocínio dos LLMs, incluindo: (1) uma nova taxonomia de habilidades de raciocínio que permite uma análise refinada dos processos de raciocínio dos modelos, (2) um pipeline robusto de síntese de dados especificamente adaptado para avaliação de raciocínio de senso comum, e (3) uma estrutura de escalonamento de complexidade que permite que a dificuldade da tarefa seja ajustada dinamicamente em conjunto com futuras melhorias nas habilidades dos LLMs. Experimentos extensos em oito LLMs state-of-the-art de diferentes tamanhos e abordagens de treinamento demonstram que o mSCoRe permanece significativamente desafiador para os modelos atuais, especialmente em níveis mais altos de complexidade. Nossos resultados revelam as limitações desses modelos reforçados para raciocínio quando confrontados com nuances de senso comum geral e cultural multilingue. Além disso, fornecemos uma análise detalhada dos processos de raciocínio dos modelos, sugerindo direções futuras para melhorar as capacidades de raciocínio de senso comum multilingue.
English
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have
shown remarkable capabilities in complex reasoning tasks. However, the
mechanism underlying their utilization of different human reasoning skills
remains poorly investigated, especially for multilingual commonsense reasoning
that involves everyday knowledge across different languages and cultures. To
address this gap, we propose a Multilingual and Scalable Benchmark for
Skill-based Commonsense Reasoning (mSCoRe).
Our benchmark incorporates three key components that are designed to
systematically evaluate LLM's reasoning capabilities, including: (1) a novel
taxonomy of reasoning skills that enables fine-grained analysis of models'
reasoning processes, (2) a robust data synthesis pipeline tailored specifically
for commonsense reasoning evaluation, and (3) a complexity scaling framework
allowing task difficulty to scale dynamically alongside future improvements in
LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying
sizes and training approaches demonstrate that mSCoRe remains
significantly challenging for current models, particularly at higher complexity
levels. Our results reveal the limitations of such reasoning-reinforced models
when confronted with nuanced multilingual general and cultural commonsense. We
further provide detailed analysis on the models' reasoning processes,
suggesting future directions for improving multilingual commonsense reasoning
capabilities.