ChatPaper.aiChatPaper

Keine Abkürzung zur Kultur: Indonesisches Multi-Hop-Frage-Antwort-System für komplexes Kulturverständnis

No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

February 3, 2026
papers.authors: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI

papers.abstract

Das Verständnis von Kultur erfordert schlussfolgern über Kontext, Tradition und implizites soziales Wissen hinaus, weit über das bloße Abrufen isolierter Fakten hinaus. Dennoch stützen sich die meisten auf Kultur fokussierten Frage-Antwort-Benchmarks (QA) auf Single-Hop-Fragen, die es Modellen ermöglichen könnten, oberflächliche Hinweise auszunutzen, anstatt echtes kulturelles Schlussfolgern zu demonstrieren. In dieser Arbeit stellen wir ID-MoCQA vor, den ersten groß angelegten Multi-Hop-QA-Datensatz zur Bewertung des kulturellen Verständnisses großer Sprachmodelle (LLMs), der in indonesischen Traditionen verankert und sowohl auf Englisch als auch auf Indonesisch verfügbar ist. Wir präsentieren einen neuen Rahmen, der systematisch Single-Hop-Kulturfragen in Multi-Hop-Schlussfolgerungsketten über sechs Hinweistypen (z.B. Common Sense, zeitlich, geografisch) transformiert. Unsere mehrstufige Validierungspipeline, die Expertenüberprüfung und LLM-as-a-Judge-Filterung kombiniert, gewährleistet hochwertige Frage-Antwort-Paare. Unsere Evaluation aktueller Modelle zeigt erhebliche Lücken im kulturellen Schlussfolgern auf, insbesondere bei Aufgaben, die nuancierte Inferenz erfordern. ID-MoCQA bietet einen anspruchsvollen und essenziellen Benchmark für die Weiterentwicklung der kulturellen Kompetenz von LLMs.
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.
PDF71February 5, 2026