Évaluation multimodale des architectures russophones
Multimodal Evaluation of Russian-language Architectures
November 19, 2025
papers.authors: Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, Artem Safin, Maria Tikhonova, Alexander Kharitonov, Yulia Lyakh, Petr Surovtsev, Denis Shevelev, Vildan Saburov, Vasily Konovalov, Elisei Rykov, Ivan Sviridov, Amina Miftakhova, Ilseyar Alimova, Alexander Panchenko, Alexander Kapitanov, Alena Fenogenova
cs.AI
papers.abstract
Les modèles linguistiques multimodaux de grande taille (MLLM) sont actuellement au cœur de l'attention de la recherche, affichant des progrès rapides en termes d'échelle et de capacités, mais leur intelligence, leurs limites et leurs risques restent insuffisamment compris. Pour répondre à ces problématiques, particulièrement dans le contexte de la langue russe où aucun benchmark multimodal n'existe actuellement, nous présentons Mera Multi, un cadre d'évaluation multimodal ouvert pour les architectures russophones. Ce benchmark est basé sur des instructions et englobe les modalités par défaut que sont le texte, l'image, l'audio et la vidéo, comprenant 18 tâches d'évaluation nouvellement construites pour les modèles à usage général et les architectures spécifiques à une modalité (image-à-texte, vidéo-à-texte et audio-à-texte). Nos contributions incluent : (i) une taxonomie universelle des capacités multimodales ; (ii) 18 jeux de données créés entièrement *ex nihilo* en tenant compte des spécificités culturelles et linguistiques russes, avec des invites et des métriques unifiées ; (iii) des résultats de référence pour les modèles propriétaires et open-source ; (iv) une méthodologie pour prévenir la fuite du benchmark, incluant le tatouage numérique et des licences pour les ensembles privés. Bien que notre focus actuel soit le russe, le benchmark proposé offre une méthodologie reproductible pour construire des benchmarks multimodaux dans des langues typologiquement diverses, particulièrement au sein de la famille des langues slaves.
English
Multimodal large language models (MLLMs) are currently at the center of research attention, showing rapid progress in scale and capabilities, yet their intelligence, limitations, and risks remain insufficiently understood. To address these issues, particularly in the context of the Russian language, where no multimodal benchmarks currently exist, we introduce Mera Multi, an open multimodal evaluation framework for Russian-spoken architectures. The benchmark is instruction-based and encompasses default text, image, audio, and video modalities, comprising 18 newly constructed evaluation tasks for both general-purpose models and modality-specific architectures (image-to-text, video-to-text, and audio-to-text). Our contributions include: (i) a universal taxonomy of multimodal abilities; (ii) 18 datasets created entirely from scratch with attention to Russian cultural and linguistic specificity, unified prompts, and metrics; (iii) baseline results for both closed-source and open-source models; (iv) a methodology for preventing benchmark leakage, including watermarking and licenses for private sets. While our current focus is on Russian, the proposed benchmark provides a replicable methodology for constructing multimodal benchmarks in typologically diverse languages, particularly within the Slavic language family.