ChatPaper.aiChatPaper

Pas de raccourcis vers la culture : Réponse à des questions à sauts multiples en indonésien pour une compréhension culturelle complexe

No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

February 3, 2026
papers.authors: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI

papers.abstract

Comprendre la culture nécessite un raisonnement qui intègre le contexte, la tradition et les connaissances sociales implicites, bien au-delà de la simple mémorisation de faits isolés. Pourtant, la plupart des benchmarks de question-réponse (QR) axés sur la culture reposent sur des questions à saut unique, ce qui peut permettre aux modèles d'exploiter des indices superficiels plutôt que de démontrer une véritable compréhension culturelle. Dans ce travail, nous présentons ID-MoCQA, la première base de données de questions-réponses multi-sauts à grande échelle conçue pour évaluer la compréhension culturelle des grands modèles de langage (LLM), ancrée dans les traditions indonésiennes et disponible en anglais et en indonésien. Nous proposons un nouveau cadre qui transforme systématiquement des questions culturelles à saut unique en chaînes de raisonnement multi-sauts couvrant six types d'indices (par exemple, de bon sens, temporels, géographiques). Notre pipeline de validation en plusieurs étapes, combinant une revue d'experts et un filtrage par LLM-comme-juge, garantit des paires question-réponse de haute qualité. Notre évaluation sur des modèles de pointe révèle des lacunes importantes dans le raisonnement culturel, en particulier pour les tâches nécessitant une inférence nuancée. ID-MoCQA constitue un benchmark exigeant et essentiel pour faire progresser les compétences culturelles des LLM.
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.
PDF83February 8, 2026