Nessuna scorciatoia per la cultura: risposte a domande multi-hop in indonesiano per una comprensione culturale complessa

Abstract

Comprendere la cultura richiede un ragionamento che attraversa contesto, tradizione e conoscenza sociale implicita, andando ben oltre il semplice richiamo di fatti isolati. Tuttavia, la maggior parte dei benchmark per question answering (QA) a focus culturale si basa su domande a singolo passaggio, che potrebbero consentire ai modelli di sfruttare indizi superficiali piuttosto che dimostrare un'autentica capacità di ragionamento culturale. In questo lavoro, presentiamo ID-MoCQA, il primo dataset su larga scala di QA multi-hop per valutare la comprensione culturale dei grandi modelli linguistici (LLM), ancorato alle tradizioni indonesiane e disponibile sia in inglese che in indonesiano. Introduciamo un nuovo framework che trasforma sistematicamente domande culturali a singolo passaggio in catene di ragionamento multi-hop che abbracciano sei tipi di indizi (ad esempio, senso comune, temporali, geografici). La nostra pipeline di convalida multi-stadio, che combina una revisione esperta e un filtraggio basato su LLM come giudice, garantisce coppie domanda-risposta di alta qualità. La nostra valutazione su modelli all'avanguardia rivela lacune sostanziali nel ragionamento culturale, in particolare nei compiti che richiedono inferenze sfumate. ID-MoCQA fornisce un benchmark impegnativo ed essenziale per far progredire le competenze culturali degli LLM.

English

Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.

Nessuna scorciatoia per la cultura: risposte a domande multi-hop in indonesiano per una comprensione culturale complessa

No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

Abstract

Support