mSCoRe: um Benchmark Multilíngue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades

Resumo

Avanços recentes em modelos de linguagem de grande escala (LLMs) reforçados para raciocínio têm demonstrado capacidades notáveis em tarefas complexas de raciocínio. No entanto, o mecanismo subjacente à sua utilização de diferentes habilidades de raciocínio humano permanece pouco investigado, especialmente para o raciocínio de senso comum multilingue que envolve conhecimentos cotidianos de diferentes idiomas e culturas. Para abordar essa lacuna, propomos um Benchmark Multilingue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades (mSCoRe). Nosso benchmark incorpora três componentes principais projetados para avaliar sistematicamente as capacidades de raciocínio dos LLMs, incluindo: (1) uma nova taxonomia de habilidades de raciocínio que permite uma análise refinada dos processos de raciocínio dos modelos, (2) um pipeline robusto de síntese de dados especificamente adaptado para avaliação de raciocínio de senso comum, e (3) uma estrutura de escalonamento de complexidade que permite que a dificuldade da tarefa seja ajustada dinamicamente em conjunto com futuras melhorias nas habilidades dos LLMs. Experimentos extensos em oito LLMs state-of-the-art de diferentes tamanhos e abordagens de treinamento demonstram que o mSCoRe permanece significativamente desafiador para os modelos atuais, especialmente em níveis mais altos de complexidade. Nossos resultados revelam as limitações desses modelos reforçados para raciocínio quando confrontados com nuances de senso comum geral e cultural multilingue. Além disso, fornecemos uma análise detalhada dos processos de raciocínio dos modelos, sugerindo direções futuras para melhorar as capacidades de raciocínio de senso comum multilingue.

English

Recent advancements in reasoning-reinforced Large Language Models (LLMs) have shown remarkable capabilities in complex reasoning tasks. However, the mechanism underlying their utilization of different human reasoning skills remains poorly investigated, especially for multilingual commonsense reasoning that involves everyday knowledge across different languages and cultures. To address this gap, we propose a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning (mSCoRe). Our benchmark incorporates three key components that are designed to systematically evaluate LLM's reasoning capabilities, including: (1) a novel taxonomy of reasoning skills that enables fine-grained analysis of models' reasoning processes, (2) a robust data synthesis pipeline tailored specifically for commonsense reasoning evaluation, and (3) a complexity scaling framework allowing task difficulty to scale dynamically alongside future improvements in LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying sizes and training approaches demonstrate that mSCoRe remains significantly challenging for current models, particularly at higher complexity levels. Our results reveal the limitations of such reasoning-reinforced models when confronted with nuanced multilingual general and cultural commonsense. We further provide detailed analysis on the models' reasoning processes, suggesting future directions for improving multilingual commonsense reasoning capabilities.

mSCoRe: um Benchmark Multilíngue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades

mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

Resumo

Support