ChatPaper.aiChatPaper

DRISHTIKON : Un benchmark multimodal et multilingue pour évaluer la compréhension des modèles de langage sur la culture indienne

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture

September 23, 2025
papers.authors: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha
cs.AI

papers.abstract

Nous présentons DRISHTIKON, un benchmark multimodal et multilingue inédit, centré exclusivement sur la culture indienne, conçu pour évaluer la compréhension culturelle des systèmes d’intelligence artificielle générative. Contrairement aux benchmarks existants de portée générique ou mondiale, DRISHTIKON offre une couverture approfondie et granulaire des diverses régions de l’Inde, couvrant 15 langues, tous les États et territoires de l’Union, et intégrant plus de 64 000 paires texte-image alignées. Le jeu de données capture des thèmes culturels riches, incluant les festivals, les vêtements, les cuisines, les formes d’art et le patrimoine historique, parmi bien d’autres. Nous évaluons un large éventail de modèles vision-langage (VLMs), incluant des modèles open-source petits et grands, des systèmes propriétaires, des VLMs spécialisés dans le raisonnement et des modèles axés sur les langues indiennes, dans des contextes zero-shot et de chaîne de pensée. Nos résultats révèlent des limitations clés dans la capacité des modèles actuels à raisonner sur des entrées multimodales ancrées culturellement, en particulier pour les langues à ressources limitées et les traditions moins documentées. DRISHTIKON comble une lacune cruciale dans la recherche en IA inclusive, offrant un banc d’essai robuste pour faire progresser les technologies linguistiques culturellement conscientes et compétentes sur le plan multimodal.
English
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.
PDF02September 24, 2025