Alle Sprachen sind wichtig: Evaluierung von LMMs in kulturell vielfältigen 100 Sprachen

Zusammenfassung

Bestehende Große Multimodale Modelle (LMMs) konzentrieren sich in der Regel nur auf wenige Regionen und Sprachen. Da LMMs weiterhin verbessert werden, ist es zunehmend wichtig sicherzustellen, dass sie kulturelle Kontexte verstehen, lokale Sensibilitäten respektieren und Sprachen mit geringen Ressourcen unterstützen, während sie entsprechende visuelle Hinweise effektiv integrieren. Auf der Suche nach kulturell vielfältigen globalen multimodalen Modellen repräsentiert unser vorgeschlagenes All Languages Matter Benchmark (ALM-bench) den bisher größten und umfassendsten Versuch zur Evaluierung von LMMs in 100 Sprachen. ALM-bench fordert bestehende Modelle heraus, indem es ihre Fähigkeit testet, kulturell vielfältige Bilder in Verbindung mit Text in verschiedenen Sprachen zu verstehen und darüber zu argumentieren, einschließlich vieler Sprachen mit geringen Ressourcen, die traditionell in der LMM-Forschung unterrepräsentiert sind. Der Benchmark bietet einen robusten und nuancierten Evaluierungsrahmen mit verschiedenen Frageformaten, darunter Wahr/Falsch, Multiple-Choice und offene Fragen, die weiter in Kurz- und Langantwortkategorien unterteilt sind. Das Design von ALM-bench gewährleistet eine umfassende Bewertung der Fähigkeit eines Modells, unterschiedliche Schwierigkeitsgrade in visueller und sprachlicher Argumentation zu bewältigen. Um das reiche Geflecht globaler Kulturen einzufangen, kuratiert ALM-bench sorgfältig Inhalte aus 13 verschiedenen kulturellen Aspekten, von Traditionen und Ritualen bis hin zu berühmten Persönlichkeiten und Feierlichkeiten. Durch dies bietet ALM-bench nicht nur einen rigorosen Testbereich für modernste offene und geschlossene LMMs, sondern betont auch die Bedeutung kultureller und sprachlicher Inklusivität und ermutigt zur Entwicklung von Modellen, die diverse globale Bevölkerungen effektiv bedienen können. Unser Benchmark ist öffentlich verfügbar.

English

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model's ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.