DRISHTIKON: Мультимодальный мультиязычный бенчмарк для оценки понимания языковыми моделями индийской культуры

Аннотация

Мы представляем DRISHTIKON — первый в своём роде мультимодальный и многоязычный бенчмарк, посвящённый исключительно индийской культуре и предназначенный для оценки культурного понимания генеративных систем искусственного интеллекта. В отличие от существующих бенчмарков с общим или глобальным охватом, DRISHTIKON предлагает глубокое и детализированное покрытие разнообразных регионов Индии, охватывая 15 языков, все штаты и союзные территории, а также включая более 64 000 согласованных пар текст-изображение. Набор данных охватывает богатые культурные темы, включая фестивали, одежду, кухню, виды искусства, историческое наследие и многое другое. Мы оцениваем широкий спектр моделей, работающих с визуальными и текстовыми данными (VLMs), включая открытые малые и крупные модели, проприетарные системы, специализированные модели для рассуждений и модели, ориентированные на индийские языки, в условиях zero-shot и chain-of-thought. Наши результаты выявляют ключевые ограничения современных моделей в способности рассуждать на основе культурно обусловленных мультимодальных данных, особенно для малоресурсных языков и менее документированных традиций. DRISHTIKON заполняет важный пробел в исследованиях инклюзивного ИИ, предлагая надёжную платформу для развития культурно осведомлённых и мультимодально компетентных языковых технологий.

English

We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.