ChatPaper.aiChatPaper

DRISHTIKON: Een Multimodaal Meertalig Benchmark voor het Testen van Taalmodellen op Begrip van de Indiase Cultuur

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture

September 23, 2025
Auteurs: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha
cs.AI

Samenvatting

We introduceren DRISHTIKON, een baanbrekende multimodale en meertalige benchmark die exclusief gericht is op de Indiase cultuur, ontworpen om het culturele begrip van generatieve AI-systemen te evalueren. In tegenstelling tot bestaande benchmarks met een generieke of mondiale scope, biedt DRISHTIKON diepgaande, gedetailleerde dekking van India's diverse regio's, waarbij 15 talen worden bestreken, alle staten en unieterritoria worden omvat, en meer dan 64.000 uitgelijnde tekst-beeldparen worden geïntegreerd. De dataset omvat rijke culturele thema's zoals festivals, kleding, keukens, kunstvormen en historisch erfgoed, naast vele andere. We evalueren een breed scala aan vision-language-modellen (VLMs), waaronder open-source kleine en grote modellen, propriëtaire systemen, VLMs gespecialiseerd in redeneren, en modellen gericht op Indiase talen, in zowel zero-shot- als chain-of-thought-instellingen. Onze resultaten onthullen belangrijke beperkingen in het vermogen van huidige modellen om te redeneren over cultureel verankerde, multimodale invoer, met name voor talen met weinig bronnen en minder gedocumenteerde tradities. DRISHTIKON vult een cruciaal gat in inclusief AI-onderzoek door een robuuste testomgeving te bieden om cultureel bewuste, multimodaal competente taaltechnologieën te bevorderen.
English
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.
PDF02September 24, 2025