Sin Atajos hacia la Cultura: Respuesta a Preguntas de Múltiples Saltos en Indonesio para una Comprensión Cultural Compleja
No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding
February 3, 2026
Autores: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI
Resumen
Comprender la cultura requiere razonar a través del contexto, la tradición y el conocimiento social implícito, yendo mucho más allá de recordar hechos aislados. Sin embargo, la mayoría de los benchmarks de preguntas y respuestas (QA) centrados en la cultura se basan en preguntas de un solo paso, lo que puede permitir que los modelos exploten pistas superficiales en lugar de demostrar un razonamiento cultural genuino. En este trabajo, presentamos ID-MoCQA, el primer conjunto de datos de QA multi-paso a gran escala para evaluar la comprensión cultural de los modelos de lenguaje grandes (LLMs), basado en tradiciones indonesias y disponible tanto en inglés como en indonesio. Presentamos un nuevo marco que transforma sistemáticamente preguntas culturales de un solo paso en cadenas de razonamiento multi-paso que abarcan seis tipos de pistas (por ejemplo, de sentido común, temporales, geográficas). Nuestra canalización de validación multi-etapa, que combina la revisión por expertos y un filtrado mediante LLM-como-juez, garantiza pares de preguntas y respuestas de alta calidad. Nuestra evaluación a través de modelos de vanguardia revela brechas sustanciales en el razonamiento cultural, particularmente en tareas que requieren inferencias matizadas. ID-MoCQA proporciona un benchmark desafiante y esencial para avanzar en la competencia cultural de los LLMs.
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.