MCIF: Multimodale Crosslinguale Instructievolgbare Benchmark van Wetenschappelijke Presentaties
MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
July 25, 2025
Auteurs: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen hebben de ontwikkeling van multimodale LLM's (MLLM's) gestimuleerd, die tekst, spraak en visie integreren binnen geünificeerde frameworks. Naarmate MLLM's evolueren van smalle, eentalige, taakspecifieke systemen naar algemene instructievolgende modellen, ligt een belangrijke grens in het evalueren van hun meertalige en multimodale capaciteiten over zowel lange als korte contexten. Bestaande benchmarks schieten echter tekort in het gezamenlijk evalueren van deze dimensies: ze zijn vaak beperkt tot Engels, richten zich meestal op één enkele modaliteit tegelijk, vertrouwen op korte contexten, of ontberen menselijke annotaties — wat een uitgebreide beoordeling van modelprestaties over talen, modaliteiten en taakcomplexiteit belemmert. Om deze tekortkomingen aan te pakken, introduceren we MCIF (Multimodal Crosslingual Instruction Following), de eerste meertalige, door mensen geannoteerde benchmark gebaseerd op wetenschappelijke presentaties, die is ontworpen om instructievolging in meertalige, multimodale settings te evalueren over zowel korte als lange inputs. MCIF omvat drie kernmodaliteiten — spraak, visie en tekst — en vier diverse talen (Engels, Duits, Italiaans en Chinees), waardoor een uitgebreide evaluatie mogelijk wordt van de vaardigheden van MLLM's om instructies over talen te interpreteren en deze te combineren met multimodale contextuele informatie. MCIF is vrijgegeven onder een CC-BY 4.0 licentie om open onderzoek en vooruitgang in de ontwikkeling van MLLM's aan te moedigen.
English
Recent advances in large language models have catalyzed the development of
multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified
frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to
general-purpose instruction-following models, a key frontier lies in evaluating
their multilingual and multimodal capabilities over both long and short
contexts. However, existing benchmarks fall short in evaluating these
dimensions jointly: they are often limited to English, mostly focus on one
single modality at a time, rely on short-form contexts, or lack human
annotations -- hindering comprehensive assessment of model performance across
languages, modalities, and task complexity. To address these gaps, we introduce
MCIF (Multimodal Crosslingual Instruction Following), the first multilingual
human-annotated benchmark based on scientific talks that is designed to
evaluate instruction-following in crosslingual, multimodal settings over both
short- and long-form inputs. MCIF spans three core modalities -- speech,
vision, and text -- and four diverse languages (English, German, Italian, and
Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret
instructions across languages and combine them with multimodal contextual
information. MCIF is released under a CC-BY 4.0 license to encourage open
research and progress in MLLMs development.