mSCoRe: Многоязычный и масштабируемый эталонный тест для оценки навыкового здравого смысла

Аннотация

Последние достижения в области крупных языковых моделей (LLM), усиленных способностью к рассуждению, продемонстрировали впечатляющие возможности в решении сложных задач, требующих логического мышления. Однако механизмы, лежащие в основе их использования различных навыков человеческого рассуждения, остаются малоизученными, особенно в контексте многоязычного здравого смысла, который включает повседневные знания из разных языков и культур. Для устранения этого пробела мы предлагаем многоязычный и масштабируемый бенчмарк для оценки навыков здравого смысла (mSCoRe). Наш бенчмарк включает три ключевых компонента, разработанных для систематической оценки способностей LLM к рассуждению: (1) новую таксономию навыков рассуждения, позволяющую проводить детальный анализ процессов рассуждения моделей, (2) надежный конвейер синтеза данных, специально адаптированный для оценки здравого смысла, и (3) фреймворк масштабирования сложности, позволяющий динамически увеличивать сложность задач в соответствии с будущими улучшениями способностей LLM. Экстенсивные эксперименты на восьми современных LLM различных размеров и подходов к обучению показывают, что mSCoRe остается значительным вызовом для текущих моделей, особенно на более высоких уровнях сложности. Наши результаты выявляют ограничения таких моделей, усиленных способностью к рассуждению, при столкновении с тонкостями многоязычного общего и культурного здравого смысла. Мы также предоставляем детальный анализ процессов рассуждения моделей, предлагая направления для улучшения их способностей к многоязычному здравому смыслу в будущем.

English

Recent advancements in reasoning-reinforced Large Language Models (LLMs) have shown remarkable capabilities in complex reasoning tasks. However, the mechanism underlying their utilization of different human reasoning skills remains poorly investigated, especially for multilingual commonsense reasoning that involves everyday knowledge across different languages and cultures. To address this gap, we propose a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning (mSCoRe). Our benchmark incorporates three key components that are designed to systematically evaluate LLM's reasoning capabilities, including: (1) a novel taxonomy of reasoning skills that enables fine-grained analysis of models' reasoning processes, (2) a robust data synthesis pipeline tailored specifically for commonsense reasoning evaluation, and (3) a complexity scaling framework allowing task difficulty to scale dynamically alongside future improvements in LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying sizes and training approaches demonstrate that mSCoRe remains significantly challenging for current models, particularly at higher complexity levels. Our results reveal the limitations of such reasoning-reinforced models when confronted with nuanced multilingual general and cultural commonsense. We further provide detailed analysis on the models' reasoning processes, suggesting future directions for improving multilingual commonsense reasoning capabilities.

mSCoRe: Многоязычный и масштабируемый эталонный тест для оценки навыкового здравого смысла

mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

Аннотация

Support