文化への近道なし:複雑な文化的理解のためのインドネシア多段階質問応答
No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding
February 3, 2026
著者: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI
要旨
文化を理解するには、文脈や伝統、暗黙の社会的知識にわたる推論が必要であり、単に断片的な事実を想起するはるかに超えた能力が求められる。しかし、文化に焦点を当てた質問応答(QA)ベンチマークの多くは単一ホップの質問に依存しており、これではモデルが浅い手がかりを利用するだけで、真の文化的推論能力を示さない可能性がある。本研究では、インドネシアの伝統に基づき、英語とインドネシア語の両方で利用可能な、大規模言語モデル(LLM)の文化的理解力を評価する初の大規模多段階QAデータセット「ID-MoCQA」を提案する。単一ホップの文化的質問を、6種類の手がかり(常識的、時間的、地理的など)にわたる多段階推論チェーンへ体系的に変換する新たなフレームワークを提示する。専門家による検証とLLM判定フィルタリングを組み合わせた多段階検証パイプラインにより、高品質な質問-回答ペアを保証する。最先端モデルを用いた評価により、特に微妙な推論を要する課題において、文化的推論能力に重大な課題があることが明らかになった。ID-MoCQAは、LLMの文化的適応性を向上させるための挑戦的かつ不可欠なベンチマークを提供する。
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.