Toutes les langues comptent : Évaluation des LMM sur 100 langues culturellement diverses

Résumé

Les modèles multimodaux de grande taille (LMM), existants, se concentrent généralement sur seulement quelques régions et langues. Alors que les LMM continuent de s'améliorer, il est de plus en plus important de veiller à ce qu'ils comprennent les contextes culturels, respectent les sensibilités locales et soutiennent les langues à faibles ressources, tout en intégrant efficacement les indices visuels correspondants. Dans le but de créer des modèles multimodaux mondiaux culturellement diversifiés, notre proposition de Banc d'Évaluation Toutes Langues Comptent (ALM-bench) représente le plus grand et le plus complet effort à ce jour pour évaluer les LMM à travers 100 langues. ALM-bench met au défi les modèles existants en testant leur capacité à comprendre et raisonner sur des images culturellement diverses associées à du texte dans différentes langues, y compris de nombreuses langues à faibles ressources traditionnellement sous-représentées dans la recherche sur les LMM. Le banc d'essai offre un cadre d'évaluation robuste et nuancé comprenant divers formats de questions, y compris vrai/faux, choix multiples et questions ouvertes, qui sont ensuite divisées en catégories de réponses courtes et longues. La conception d'ALM-bench garantit une évaluation complète de la capacité d'un modèle à gérer des niveaux variés de difficulté dans le raisonnement visuel et linguistique. Pour capturer la riche diversité des cultures mondiales, ALM-bench sélectionne soigneusement du contenu provenant de 13 aspects culturels distincts, allant des traditions et rituels aux personnalités célèbres et aux célébrations. Ainsi, ALM-bench offre non seulement un terrain d'essai rigoureux pour les LMM open source et propriétaires de pointe, mais met également en lumière l'importance de l'inclusivité culturelle et linguistique, encourageant le développement de modèles capables de servir efficacement les populations mondiales diverses. Notre banc d'essai est disponible publiquement.

English

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model's ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.