ChatPaper.aiChatPaper

MCIF : Benchmark d'Instruction Multimodale et Translinguale à partir de Conférences Scientifiques

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

July 25, 2025
papers.authors: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI

papers.abstract

Les récents progrès dans les grands modèles de langage ont catalysé le développement de modèles de langage multimodaux (MLLMs) qui intègrent texte, parole et vision au sein de cadres unifiés. Alors que les MLLMs évoluent de systèmes étroits, monolingues et spécifiques à des tâches vers des modèles polyvalents capables de suivre des instructions, une frontière clé réside dans l'évaluation de leurs capacités multilingues et multimodales sur des contextes à la fois longs et courts. Cependant, les benchmarks existants ne parviennent pas à évaluer conjointement ces dimensions : ils sont souvent limités à l'anglais, se concentrent principalement sur une seule modalité à la fois, reposent sur des contextes courts ou manquent d'annotations humaines — ce qui entrave une évaluation complète des performances des modèles à travers les langues, les modalités et la complexité des tâches. Pour combler ces lacunes, nous introduisons MCIF (Multimodal Crosslingual Instruction Following), le premier benchmark multilingue annoté par des humains, basé sur des conférences scientifiques, conçu pour évaluer le suivi d'instructions dans des contextes multilingues et multimodaux sur des entrées à la fois courtes et longues. MCIF couvre trois modalités principales — parole, vision et texte — et quatre langues diverses (anglais, allemand, italien et chinois), permettant une évaluation complète des capacités des MLLMs à interpréter des instructions à travers les langues et à les combiner avec des informations contextuelles multimodales. MCIF est publié sous licence CC-BY 4.0 pour encourager la recherche ouverte et les progrès dans le développement des MLLMs.
English
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
PDF92August 4, 2025