mSCoRe: Многоязычный и масштабируемый эталонный тест для оценки навыкового здравого смысла
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning
August 13, 2025
Авторы: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM), усиленных способностью к рассуждению, продемонстрировали впечатляющие возможности в решении сложных задач, требующих логического мышления. Однако механизмы, лежащие в основе их использования различных навыков человеческого рассуждения, остаются малоизученными, особенно в контексте многоязычного здравого смысла, который включает повседневные знания из разных языков и культур. Для устранения этого пробела мы предлагаем многоязычный и масштабируемый бенчмарк для оценки навыков здравого смысла (mSCoRe).
Наш бенчмарк включает три ключевых компонента, разработанных для систематической оценки способностей LLM к рассуждению: (1) новую таксономию навыков рассуждения, позволяющую проводить детальный анализ процессов рассуждения моделей, (2) надежный конвейер синтеза данных, специально адаптированный для оценки здравого смысла, и (3) фреймворк масштабирования сложности, позволяющий динамически увеличивать сложность задач в соответствии с будущими улучшениями способностей LLM. Экстенсивные эксперименты на восьми современных LLM различных размеров и подходов к обучению показывают, что mSCoRe остается значительным вызовом для текущих моделей, особенно на более высоких уровнях сложности. Наши результаты выявляют ограничения таких моделей, усиленных способностью к рассуждению, при столкновении с тонкостями многоязычного общего и культурного здравого смысла. Мы также предоставляем детальный анализ процессов рассуждения моделей, предлагая направления для улучшения их способностей к многоязычному здравому смыслу в будущем.
English
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have
shown remarkable capabilities in complex reasoning tasks. However, the
mechanism underlying their utilization of different human reasoning skills
remains poorly investigated, especially for multilingual commonsense reasoning
that involves everyday knowledge across different languages and cultures. To
address this gap, we propose a Multilingual and Scalable Benchmark for
Skill-based Commonsense Reasoning (mSCoRe).
Our benchmark incorporates three key components that are designed to
systematically evaluate LLM's reasoning capabilities, including: (1) a novel
taxonomy of reasoning skills that enables fine-grained analysis of models'
reasoning processes, (2) a robust data synthesis pipeline tailored specifically
for commonsense reasoning evaluation, and (3) a complexity scaling framework
allowing task difficulty to scale dynamically alongside future improvements in
LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying
sizes and training approaches demonstrate that mSCoRe remains
significantly challenging for current models, particularly at higher complexity
levels. Our results reveal the limitations of such reasoning-reinforced models
when confronted with nuanced multilingual general and cultural commonsense. We
further provide detailed analysis on the models' reasoning processes,
suggesting future directions for improving multilingual commonsense reasoning
capabilities.