DRISHTIKON: Um Benchmark Multimodal e Multilíngue para Testar a Compreensão de Modelos de Linguagem sobre a Cultura Indiana
DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
September 23, 2025
Autores: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha
cs.AI
Resumo
Apresentamos o DRISHTIKON, um benchmark multimodal e multilíngue pioneiro, centrado exclusivamente na cultura indiana, projetado para avaliar a compreensão cultural de sistemas de IA generativa. Diferente de benchmarks existentes com escopo genérico ou global, o DRISHTIKON oferece uma cobertura profunda e detalhada das diversas regiões da Índia, abrangendo 15 idiomas, cobrindo todos os estados e territórios da união, e incorporando mais de 64.000 pares de texto-imagem alinhados. O conjunto de dados captura temas culturais ricos, incluindo festivais, trajes, culinárias, formas de arte e patrimônio histórico, entre muitos outros. Avaliamos uma ampla gama de modelos de visão e linguagem (VLMs), incluindo modelos pequenos e grandes de código aberto, sistemas proprietários, VLMs especializados em raciocínio e modelos focados em línguas indianas, em configurações zero-shot e de cadeia de pensamento. Nossos resultados revelam limitações cruciais na capacidade dos modelos atuais de raciocinar sobre entradas multimodais culturalmente fundamentadas, especialmente para idiomas de baixo recurso e tradições menos documentadas. O DRISHTIKON preenche uma lacuna vital na pesquisa de IA inclusiva, oferecendo um ambiente robusto para avançar tecnologias de linguagem culturalmente conscientes e multimodalmente competentes.
English
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual
benchmark centered exclusively on Indian culture, designed to evaluate the
cultural understanding of generative AI systems. Unlike existing benchmarks
with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage
across India's diverse regions, spanning 15 languages, covering all states and
union territories, and incorporating over 64,000 aligned text-image pairs. The
dataset captures rich cultural themes including festivals, attire, cuisines,
art forms, and historical heritage amongst many more. We evaluate a wide range
of vision-language models (VLMs), including open-source small and large models,
proprietary systems, reasoning-specialized VLMs, and Indic-focused models,
across zero-shot and chain-of-thought settings. Our results expose key
limitations in current models' ability to reason over culturally grounded,
multimodal inputs, particularly for low-resource languages and less-documented
traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a
robust testbed to advance culturally aware, multimodally competent language
technologies.