DRISHTIKON: Мультимодальный мультиязычный бенчмарк для оценки понимания языковыми моделями индийской культуры
DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
September 23, 2025
Авторы: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha
cs.AI
Аннотация
Мы представляем DRISHTIKON — первый в своём роде мультимодальный и многоязычный бенчмарк, посвящённый исключительно индийской культуре и предназначенный для оценки культурного понимания генеративных систем искусственного интеллекта. В отличие от существующих бенчмарков с общим или глобальным охватом, DRISHTIKON предлагает глубокое и детализированное покрытие разнообразных регионов Индии, охватывая 15 языков, все штаты и союзные территории, а также включая более 64 000 согласованных пар текст-изображение. Набор данных охватывает богатые культурные темы, включая фестивали, одежду, кухню, виды искусства, историческое наследие и многое другое. Мы оцениваем широкий спектр моделей, работающих с визуальными и текстовыми данными (VLMs), включая открытые малые и крупные модели, проприетарные системы, специализированные модели для рассуждений и модели, ориентированные на индийские языки, в условиях zero-shot и chain-of-thought. Наши результаты выявляют ключевые ограничения современных моделей в способности рассуждать на основе культурно обусловленных мультимодальных данных, особенно для малоресурсных языков и менее документированных традиций. DRISHTIKON заполняет важный пробел в исследованиях инклюзивного ИИ, предлагая надёжную платформу для развития культурно осведомлённых и мультимодально компетентных языковых технологий.
English
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual
benchmark centered exclusively on Indian culture, designed to evaluate the
cultural understanding of generative AI systems. Unlike existing benchmarks
with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage
across India's diverse regions, spanning 15 languages, covering all states and
union territories, and incorporating over 64,000 aligned text-image pairs. The
dataset captures rich cultural themes including festivals, attire, cuisines,
art forms, and historical heritage amongst many more. We evaluate a wide range
of vision-language models (VLMs), including open-source small and large models,
proprietary systems, reasoning-specialized VLMs, and Indic-focused models,
across zero-shot and chain-of-thought settings. Our results expose key
limitations in current models' ability to reason over culturally grounded,
multimodal inputs, particularly for low-resource languages and less-documented
traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a
robust testbed to advance culturally aware, multimodally competent language
technologies.