Avaliação Multimodal de Arquiteturas de Língua Russa

Resumo

Os modelos de linguagem grandes multimodais (MLLMs) estão atualmente no centro das atenções da pesquisa, mostrando progresso rápido em escala e capacidades, mas sua inteligência, limitações e riscos permanecem insuficientemente compreendidos. Para abordar essas questões, particularmente no contexto da língua russa, onde não existem atualmente *benchmarks* multimodais, apresentamos o Mera Multi, uma estrutura de avaliação multimodal aberta para arquiteturas de língua russa. O *benchmark* é baseado em instruções e abrange as modalidades padrão de texto, imagem, áudio e vídeo, compreendendo 18 tarefas de avaliação recém-construídas para modelos de propósito geral e arquiteturas específicas por modalidade (imagem-para-texto, vídeo-para-texto e áudio-para-texto). Nossas contribuições incluem: (i) uma taxonomia universal de habilidades multimodais; (ii) 18 conjuntos de dados criados inteiramente do zero com atenção à especificidade cultural e linguística russa, *prompts* unificados e métricas; (iii) resultados de linha de base para modelos proprietários e de código aberto; (iv) uma metodologia para prevenir o vazamento do *benchmark*, incluindo marca d'água e licenças para conjuntos privados. Embora nosso foco atual seja o russo, o *benchmark* proposto fornece uma metodologia replicável para a construção de *benchmarks* multimodais em línguas tipologicamente diversas, particularmente dentro da família de línguas eslavas.

English

Multimodal large language models (MLLMs) are currently at the center of research attention, showing rapid progress in scale and capabilities, yet their intelligence, limitations, and risks remain insufficiently understood. To address these issues, particularly in the context of the Russian language, where no multimodal benchmarks currently exist, we introduce Mera Multi, an open multimodal evaluation framework for Russian-spoken architectures. The benchmark is instruction-based and encompasses default text, image, audio, and video modalities, comprising 18 newly constructed evaluation tasks for both general-purpose models and modality-specific architectures (image-to-text, video-to-text, and audio-to-text). Our contributions include: (i) a universal taxonomy of multimodal abilities; (ii) 18 datasets created entirely from scratch with attention to Russian cultural and linguistic specificity, unified prompts, and metrics; (iii) baseline results for both closed-source and open-source models; (iv) a methodology for preventing benchmark leakage, including watermarking and licenses for private sets. While our current focus is on Russian, the proposed benchmark provides a replicable methodology for constructing multimodal benchmarks in typologically diverse languages, particularly within the Slavic language family.

Avaliação Multimodal de Arquiteturas de Língua Russa

Multimodal Evaluation of Russian-language Architectures

Resumo

Support