ChatPaper.aiChatPaper

mSCoRe: 기술 기반 상식 추론을 위한 다국어 및 확장 가능 벤치마크

mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

August 13, 2025
저자: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen
cs.AI

초록

최근 추론 강화 대형 언어 모델(LLM)의 발전은 복잡한 추론 과제에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델이 다양한 인간의 추론 기술을 활용하는 메커니즘은 여전히 충분히 연구되지 않았으며, 특히 다양한 언어와 문화에 걸친 일상 지식을 포함하는 다국어 상식 추론의 경우 더욱 그러합니다. 이러한 격차를 해결하기 위해, 우리는 기술 기반 상식 추론을 위한 다국어 및 확장 가능한 벤치마크(mSCoRe)를 제안합니다. 우리의 벤치마크는 LLM의 추론 능력을 체계적으로 평가하기 위해 설계된 세 가지 핵심 요소를 포함합니다: (1) 모델의 추론 과정을 세밀하게 분석할 수 있는 새로운 추론 기술 분류 체계, (2) 상식 추론 평가를 위해 특별히 맞춤화된 강력한 데이터 합성 파이프라인, (3) LLM 능력의 향상에 따라 과제 난이도를 동적으로 조절할 수 있는 복잡성 확장 프레임워크. 다양한 크기와 학습 방식을 가진 8개의 최신 LLM에 대한 광범위한 실험 결과, mSCoRe는 특히 높은 복잡성 수준에서 현재 모델들에게 상당히 도전적인 과제로 남아 있음을 보여줍니다. 우리의 결과는 이러한 추론 강화 모델이 미묘한 다국어 일반 상식 및 문화적 상식에 직면했을 때의 한계를 드러냅니다. 또한, 모델의 추론 과정에 대한 상세한 분석을 제공함으로써 다국어 상식 추론 능력을 향상시키기 위한 미래 방향을 제시합니다.
English
Recent advancements in reasoning-reinforced Large Language Models (LLMs) have shown remarkable capabilities in complex reasoning tasks. However, the mechanism underlying their utilization of different human reasoning skills remains poorly investigated, especially for multilingual commonsense reasoning that involves everyday knowledge across different languages and cultures. To address this gap, we propose a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning (mSCoRe). Our benchmark incorporates three key components that are designed to systematically evaluate LLM's reasoning capabilities, including: (1) a novel taxonomy of reasoning skills that enables fine-grained analysis of models' reasoning processes, (2) a robust data synthesis pipeline tailored specifically for commonsense reasoning evaluation, and (3) a complexity scaling framework allowing task difficulty to scale dynamically alongside future improvements in LLM abilities. Extensive experiments on eights state-of-the-art LLMs of varying sizes and training approaches demonstrate that mSCoRe remains significantly challenging for current models, particularly at higher complexity levels. Our results reveal the limitations of such reasoning-reinforced models when confronted with nuanced multilingual general and cultural commonsense. We further provide detailed analysis on the models' reasoning processes, suggesting future directions for improving multilingual commonsense reasoning capabilities.
PDF12August 21, 2025