ロシア語対応アーキテクチャのマルチモーダル評価
Multimodal Evaluation of Russian-language Architectures
November 19, 2025
著者: Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, Artem Safin, Maria Tikhonova, Alexander Kharitonov, Yulia Lyakh, Petr Surovtsev, Denis Shevelev, Vildan Saburov, Vasily Konovalov, Elisei Rykov, Ivan Sviridov, Amina Miftakhova, Ilseyar Alimova, Alexander Panchenko, Alexander Kapitanov, Alena Fenogenova
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は現在、研究の中心的な関心を集めており、規模と能力において急速な進歩を見せているが、その知性、限界、リスクについては未だ十分に理解されていない。これらの課題、特に現時点でマルチモーダルベンチマークが存在しないロシア語圏の文脈に対処するため、我々はロシア語対応アーキテクチャのためのオープンなマルチモーダル評価フレームワーク「Mera Multi」を提案する。本ベンチマークは指示ベースであり、デフォルトでテキスト、画像、音声、動画のモダリティを包含し、汎用モデルとモダリティ特化型アーキテクチャ(画像対テキスト、動画対テキスト、音声対テキスト)の双方に対応する18の新規構築評価タスクで構成される。我々の貢献は以下の通りである:(i)マルチモーダル能力の普遍的分類体系;(ii)ロシアの文化的・言語的特異性に配慮し、統一されたプロンプトと指標を備えた、完全に新規に作成された18のデータセット;(iii)クローズドソース及びオープンソースモデルに対するベースライン結果;(iv)透かしの埋め込みや非公開セットのライセンスを含む、ベンチマーク漏洩防止の方法論。現在の焦点はロシア語であるが、提案するベンチマークは、特にスラブ語族に属する類型論的に多様な言語におけるマルチモーダルベンチマーク構築の再現可能な方法論を提供する。
English
Multimodal large language models (MLLMs) are currently at the center of research attention, showing rapid progress in scale and capabilities, yet their intelligence, limitations, and risks remain insufficiently understood. To address these issues, particularly in the context of the Russian language, where no multimodal benchmarks currently exist, we introduce Mera Multi, an open multimodal evaluation framework for Russian-spoken architectures. The benchmark is instruction-based and encompasses default text, image, audio, and video modalities, comprising 18 newly constructed evaluation tasks for both general-purpose models and modality-specific architectures (image-to-text, video-to-text, and audio-to-text). Our contributions include: (i) a universal taxonomy of multimodal abilities; (ii) 18 datasets created entirely from scratch with attention to Russian cultural and linguistic specificity, unified prompts, and metrics; (iii) baseline results for both closed-source and open-source models; (iv) a methodology for preventing benchmark leakage, including watermarking and licenses for private sets. While our current focus is on Russian, the proposed benchmark provides a replicable methodology for constructing multimodal benchmarks in typologically diverse languages, particularly within the Slavic language family.