ChatPaper.aiChatPaper

Geen Kortsluiting naar Cultuur: Indonesische Multi-hop Vraagbeantwoording voor Complex Cultureel Begrip

No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

February 3, 2026
Auteurs: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI

Samenvatting

Het begrijpen van cultuur vereist redeneren over context, traditie en impliciete sociale kennis, wat ver uitstijgt boven het reproduceren van geïsoleerde feiten. Toch baseren de meeste vraag-antwoordbenchmarks (QA) met een culturele focus zich op enkelvoudige vragen, waarbij modellen mogelijk oppervlakkige aanwijzingen kunnen benutten in plaats van echt cultureel redeneervermogen te tonen. In dit werk introduceren we ID-MoCQA, de eerste grootschalige multi-hop QA-dataset voor het beoordelen van het cultuurbegrip van grote taalmodellen (LLM's), geworteld in Indonesische tradities en beschikbaar in zowel het Engels als het Indonesisch. We presenteren een nieuw raamwerk dat systematisch enkelvoudige culturele vragen omzet in multi-hop redeneerketens over zes soorten aanwijzingen (zoals gezond verstand, temporele en geografische aanwijzingen). Onze pijplijn voor validatie in meerdere fasen, die expertbeoordeling en filtering door een LLM als rechter combineert, garandeert hoogwaardige vraag-antwoordparen. Onze evaluatie van state-of-the-art modellen toont aanzienlijke hiaten in cultureel redeneren, vooral bij taken die genuanceerde inferentie vereisen. ID-MoCQA biedt een uitdagende en essentiële benchmark voor het bevorderen van de culturele competentie van LLM's.
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.
PDF83February 8, 2026