DRISHTIKON: Un punto de referencia multimodal y multilingüe para evaluar la comprensión de los modelos de lenguaje sobre la cultura india

Resumen

Presentamos DRISHTIKON, un punto de referencia multimodal y multilingüe sin precedentes, centrado exclusivamente en la cultura india, diseñado para evaluar la comprensión cultural de los sistemas de inteligencia artificial generativa. A diferencia de los puntos de referencia existentes con un alcance genérico o global, DRISHTIKON ofrece una cobertura profunda y detallada en las diversas regiones de la India, abarcando 15 idiomas, cubriendo todos los estados y territorios de la unión, e incorporando más de 64,000 pares de texto-imagen alineados. El conjunto de datos captura temas culturales ricos, incluyendo festivales, vestimenta, cocinas, formas de arte y patrimonio histórico, entre muchos otros. Evaluamos una amplia gama de modelos de visión-lenguaje (VLMs), incluyendo modelos pequeños y grandes de código abierto, sistemas propietarios, VLMs especializados en razonamiento y modelos enfocados en lenguas índicas, en configuraciones de cero disparos y cadena de pensamiento. Nuestros resultados revelan limitaciones clave en la capacidad de los modelos actuales para razonar sobre entradas multimodales con base cultural, particularmente para idiomas de bajos recursos y tradiciones menos documentadas. DRISHTIKON llena un vacío crucial en la investigación de IA inclusiva, ofreciendo un banco de pruebas robusto para avanzar en tecnologías del lenguaje culturalmente conscientes y multimodalmente competentes.

English

We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.