Todas as Línguas Importam: Avaliando Modelos de Linguagem Multilíngues em 100 Línguas Culturalmente Diversas

Resumo

Os Modelos Multimodais Grandes (LMMs) existentes geralmente se concentram apenas em algumas regiões e idiomas. À medida que os LMMs continuam a melhorar, é cada vez mais importante garantir que compreendam os contextos culturais, respeitem sensibilidades locais e apoiem idiomas de recursos limitados, tudo isso integrando efetivamente pistas visuais correspondentes. Em busca de modelos multimodais globais culturalmente diversos, nosso proposto Benchmark Todas as Línguas Importam (ALM-bench) representa o maior e mais abrangente esforço até o momento para avaliar LMMs em 100 idiomas. O ALM-bench desafia os modelos existentes testando sua capacidade de compreender e raciocinar sobre imagens culturalmente diversas associadas a texto em vários idiomas, incluindo muitos idiomas de recursos limitados tradicionalmente sub-representados na pesquisa de LMM. O benchmark oferece um framework de avaliação robusto e detalhado apresentando vários formatos de perguntas, incluindo verdadeiro/falso, múltipla escolha e perguntas abertas, que são ainda divididas em categorias de respostas curtas e longas. O design do ALM-bench garante uma avaliação abrangente da capacidade de um modelo lidar com diferentes níveis de dificuldade em raciocínio visual e linguístico. Para capturar a rica tapeçaria das culturas globais, o ALM-bench cura cuidadosamente conteúdo de 13 aspectos culturais distintos, que vão desde tradições e rituais até personalidades famosas e celebrações. Através disso, o ALM-bench não apenas fornece um campo de testes rigoroso para LMMs de código aberto e fechado de ponta, mas também destaca a importância da inclusão cultural e linguística, incentivando o desenvolvimento de modelos que possam atender efetivamente diversas populações globais. Nosso benchmark está publicamente disponível.

English

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model's ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.

Todas as Línguas Importam: Avaliando Modelos de Linguagem Multilíngues em 100 Línguas Culturalmente Diversas

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Resumo

Support