문화에는 지름길이 없다: 복잡한 문화적 이해를 위한 인도네시아 다중 홉 질의응답
No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding
February 3, 2026
저자: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI
초록
문화를 이해하려면 고립된 사실을 기억하는 것을 넘어 맥락, 전통, 암묵적 사회 지식을 종합적으로 추론하는 능력이 필요합니다. 그러나 문화 중심 질의응답(QA) 벤치마크 대부분은 단일 홉 질문에 의존하여, 모델이 진정한 문화적 추론을 보여주기보다는 피상적 단서를 활용할 여지를 남깁니다. 본 연구에서는 인도네시아 전통에 기반을 둔 대규모 다중 홉 QA 데이터셋인 ID-MoCQA를 영어와 인도네시아어로 동시에 공개합니다. 우리는 단일 홉 문화 질문을 상식, 시간, 지리 등 6가지 유형의 추론 단서를 아우르는 다중 홉 추론 체인으로 체계적으로 변환하는 새로운 프레임워크를 제시합니다. 전문가 검토와 LLM 판단 필터링을 결합한 다단계 검증 파이프라인을 통해 고품질 질문-답변 쌍을 확보했습니다. 최신 모델 평가 결과, 특히 미묘한 추론이 필요한 과제에서 문화적 추론 능력에 상당한 격차가 있음을 확인했습니다. ID-MoCQA는 LLM의 문화적 이해 역량을 향상시키기 위한 핵심적이고 도전적인 벤치마크를 제공합니다.
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.