Sem Atalhos para a Cultura: Resposta a Perguntas de Múltiplos Saltos em Indonésio para uma Compreensão Cultural Complexa

Resumo

Compreender a cultura exige raciocínio contextual, considerando tradições e conhecimentos sociais implícitos, indo muito além da simples recordação de factos isolados. No entanto, a maioria dos benchmarks de resposta a perguntas (QA) com foco cultural baseia-se em questões de salto único, o que pode permitir que os modelos explorem pistas superficiais em vez de demonstrarem um genuíno raciocínio cultural. Neste trabalho, apresentamos o ID-MoCQA, o primeiro conjunto de dados de QA multi-salto em larga escala para avaliar a compreensão cultural de modelos de linguagem de grande escala (LLMs), fundamentado nas tradições indonésias e disponível em inglês e indonésio. Apresentamos uma nova estrutura que transforma sistematicamente questões culturais de salto único em cadeias de raciocínio multi-salto abrangendo seis tipos de pistas (ex: senso comum, temporais, geográficas). O nosso pipeline de validação em múltiplas etapas, que combina revisão por especialistas e filtragem por LLM-como-juiz, garante pares pergunta-resposta de alta qualidade. A nossa avaliação com os modelos mais avançados revela lacunas substanciais no raciocínio cultural, particularmente em tarefas que exigem inferência subtil. O ID-MoCQA constitui um benchmark desafiador e essencial para o avanço da competência cultural dos LLMs.

English

Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.