Без коротких путей к культуре: индонезийская многошаговая система ответов на вопросы для сложного культурного понимания
No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding
February 3, 2026
Авторы: Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
cs.AI
Аннотация
Понимание культуры требует рассуждений с учетом контекста, традиций и неявных социальных знаний, что далеко выходит за рамки простого воспроизведения изолированных фактов. Однако большинство бенчмарков для вопросно-ответных систем, сфокусированных на культуре, опираются на одношаговые вопросы, которые могут позволять моделям использовать поверхностные сигналы вместо демонстрации подлинного культурного мышления. В данной работе мы представляем ID-MoCQA — первую крупномасштабную многошаговую вопросно-ответную базу данных для оценки культурного понимания больших языковых моделей, основанную на индонезийских традициях и доступную как на английском, так и на индонезийском языках. Мы предлагаем новую методологию, которая систематически преобразует одношаговые культурные вопросы в цепочки многошаговых рассуждений, охватывающих шесть типов подсказок (например, здравый смысл, временные, географические). Наш многоэтапный процесс валидации, сочетающий экспертный анализ и фильтрацию с использованием LLM-как-судии, обеспечивает высокое качество пар "вопрос-ответ". Проведенная нами оценка современных моделей выявляет существенные пробелы в культурных рассуждениях, особенно в задачах, требующих тонких выводов. ID-MoCQA предоставляет сложный и необходимый бенчмарк для повышения культурной компетентности больших языковых моделей.
English
Understanding culture requires reasoning across context, tradition, and implicit social knowledge, far beyond recalling isolated facts. Yet most culturally focused question answering (QA) benchmarks rely on single-hop questions, which may allow models to exploit shallow cues rather than demonstrate genuine cultural reasoning. In this work, we introduce ID-MoCQA, the first large-scale multi-hop QA dataset for assessing the cultural understanding of large language models (LLMs), grounded in Indonesian traditions and available in both English and Indonesian. We present a new framework that systematically transforms single-hop cultural questions into multi-hop reasoning chains spanning six clue types (e.g., commonsense, temporal, geographical). Our multi-stage validation pipeline, combining expert review and LLM-as-a-judge filtering, ensures high-quality question-answer pairs. Our evaluation across state-of-the-art models reveals substantial gaps in cultural reasoning, particularly in tasks requiring nuanced inference. ID-MoCQA provides a challenging and essential benchmark for advancing the cultural competency of LLMs.