ChatPaper.aiChatPaper

DRISHTIKON: Ein multimodaler, multilingualer Benchmark zur Überprüfung des Verständnisses von Sprachmodellen für die indische Kultur

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture

September 23, 2025
papers.authors: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha
cs.AI

papers.abstract

Wir stellen DRISHTIKON vor, einen einzigartigen multimodalen und mehrsprachigen Benchmark, der ausschließlich auf die indische Kultur ausgerichtet ist und entwickelt wurde, um das kulturelle Verständnis generativer KI-Systeme zu bewerten. Im Gegensatz zu bestehenden Benchmarks mit einem generischen oder globalen Fokus bietet DRISHTIKON eine tiefgehende, feingranulare Abdeckung der vielfältigen Regionen Indiens, die 15 Sprachen umfasst, alle Bundesstaaten und Unionsterritorien abdeckt und über 64.000 ausgerichtete Text-Bild-Paare integriert. Der Datensatz erfasst reiche kulturelle Themen wie Feste, Kleidung, Küchen, Kunstformen und historisches Erbe, um nur einige zu nennen. Wir evaluieren eine breite Palette von Vision-Sprache-Modellen (VLMs), darunter Open-Source-Modelle in kleiner und großer Ausführung, proprietäre Systeme, auf logisches Denken spezialisierte VLMs und auf Indien fokussierte Modelle, sowohl in Zero-Shot- als auch in Chain-of-Thought-Szenarien. Unsere Ergebnisse zeigen wesentliche Einschränkungen in der Fähigkeit aktueller Modelle, über kulturell verankerte, multimodale Eingaben zu schlussfolgern, insbesondere bei ressourcenarmen Sprachen und weniger dokumentierten Traditionen. DRISHTIKON schließt eine wichtige Lücke in der inklusiven KI-Forschung und bietet eine robuste Testumgebung, um kulturell bewusste, multimodal kompetente Sprachtechnologien voranzutreiben.
English
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.
PDF02September 24, 2025