mSCoRe: 기술 기반 상식 추론을 위한 다국어 및 확장 가능 벤치마크
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning
August 13, 2025
저자: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
초록
최근 추론 강화 대형 언어 모델(LLM)의 발전은 복잡한 추론 과제에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델이 다양한 인간의 추론 기술을 활용하는 메커니즘은 여전히 충분히 연구되지 않았으며, 특히 다양한 언어와 문화에 걸친 일상 지식을 포함하는 다국어 상식 추론의 경우 더욱 그러합니다. 이러한 격차를 해결하기 위해, 우리는 기술 기반 상식 추론을 위한 다국어 및 확장 가능한 벤치마크(mSCoRe)를 제안합니다.
우리의 벤치마크는 LLM의 추론 능력을 체계적으로 평가하기 위해 설계된 세 가지 핵심 요소를 포함합니다: (1) 모델의 추론 과정을 세밀하게 분석할 수 있는 새로운 추론 기술 분류 체계, (2) 상식 추론 평가를 위해 특별히 맞춤화된 강력한 데이터 합성 파이프라인, (3) LLM 능력의 향상에 따라 과제 난이도를 동적으로 조절할 수 있는 복잡성 확장 프레임워크. 다양한 크기와 학습 방식을 가진 8개의 최신 LLM에 대한 광범위한 실험 결과, mSCoRe는 특히 높은 복잡성 수준에서 현재 모델들에게 상당히 도전적인 과제로 남아 있음을 보여줍니다. 우리의 결과는 이러한 추론 강화 모델이 미묘한 다국어 일반 상식 및 문화적 상식에 직면했을 때의 한계를 드러냅니다. 또한, 모델의 추론 과정에 대한 상세한 분석을 제공함으로써 다국어 상식 추론 능력을 향상시키기 위한 미래 방향을 제시합니다.
English
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have
shown remarkable capabilities in complex reasoning tasks. However, the
mechanism underlying their utilization of different human reasoning skills
remains poorly investigated, especially for multilingual commonsense reasoning
that involves everyday knowledge across different languages and cultures. To
address this gap, we propose a Multilingual and Scalable Benchmark for
Skill-based Commonsense Reasoning (mSCoRe).
Our benchmark incorporates three key components that are designed to
systematically evaluate LLM's reasoning capabilities, including: (1) a novel
taxonomy of reasoning skills that enables fine-grained analysis of models'
reasoning processes, (2) a robust data synthesis pipeline tailored specifically
for commonsense reasoning evaluation, and (3) a complexity scaling framework
allowing task difficulty to scale dynamically alongside future improvements in
LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying
sizes and training approaches demonstrate that mSCoRe remains
significantly challenging for current models, particularly at higher complexity
levels. Our results reveal the limitations of such reasoning-reinforced models
when confronted with nuanced multilingual general and cultural commonsense. We
further provide detailed analysis on the models' reasoning processes,
suggesting future directions for improving multilingual commonsense reasoning
capabilities.