DRISHTIKON: Un Benchmark Multimodale e Multilingue per Valutare la Comprensione dei Modelli Linguistici sulla Cultura Indiana
DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture
September 23, 2025
Autori: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha
cs.AI
Abstract
Presentiamo DRISHTIKON, un benchmark multimodale e multilingue senza precedenti, focalizzato esclusivamente sulla cultura indiana, progettato per valutare la comprensione culturale dei sistemi di intelligenza artificiale generativa. A differenza dei benchmark esistenti con un ambito generico o globale, DRISHTIKON offre una copertura approfondita e dettagliata delle diverse regioni dell'India, abbracciando 15 lingue, coprendo tutti gli stati e i territori dell'Unione, e incorporando oltre 64.000 coppie testo-immagine allineate. Il dataset cattura ricchi temi culturali, tra cui festival, abbigliamento, cucine, forme d'arte e patrimonio storico, tra molti altri. Valutiamo un'ampia gamma di modelli visione-linguaggio (VLMs), inclusi modelli open-source di piccole e grandi dimensioni, sistemi proprietari, VLMs specializzati nel ragionamento e modelli focalizzati sulle lingue indiane, in contesti zero-shot e di ragionamento a catena (chain-of-thought). I nostri risultati evidenziano limitazioni significative nella capacità dei modelli attuali di ragionare su input multimodali radicati nella cultura, in particolare per le lingue a bassa risorsa e le tradizioni meno documentate. DRISHTIKON colma una lacuna cruciale nella ricerca sull'IA inclusiva, offrendo un solido banco di prova per avanzare tecnologie linguistiche culturalmente consapevoli e competenti a livello multimodale.
English
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual
benchmark centered exclusively on Indian culture, designed to evaluate the
cultural understanding of generative AI systems. Unlike existing benchmarks
with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage
across India's diverse regions, spanning 15 languages, covering all states and
union territories, and incorporating over 64,000 aligned text-image pairs. The
dataset captures rich cultural themes including festivals, attire, cuisines,
art forms, and historical heritage amongst many more. We evaluate a wide range
of vision-language models (VLMs), including open-source small and large models,
proprietary systems, reasoning-specialized VLMs, and Indic-focused models,
across zero-shot and chain-of-thought settings. Our results expose key
limitations in current models' ability to reason over culturally grounded,
multimodal inputs, particularly for low-resource languages and less-documented
traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a
robust testbed to advance culturally aware, multimodally competent language
technologies.