MCIF: Benchmark Multimodale e Crosslinguistico per il Seguimento di Istruzioni basato su Presentazioni Scientifiche
MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
July 25, 2025
Autori: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni hanno catalizzato lo sviluppo di MLLM (Multimodal Large Language Models) che integrano testo, parlato e visione all'interno di framework unificati. Man mano che gli MLLM evolvono da sistemi ristretti, monolingue e specifici per compiti a modelli general-purpose in grado di seguire istruzioni, una frontiera chiave risiede nella valutazione delle loro capacità multilingue e multimodali sia in contesti lunghi che brevi. Tuttavia, i benchmark esistenti non sono sufficienti per valutare congiuntamente queste dimensioni: sono spesso limitati all'inglese, si concentrano principalmente su una singola modalità alla volta, si basano su contesti brevi o mancano di annotazioni umane, ostacolando una valutazione completa delle prestazioni dei modelli attraverso lingue, modalità e complessità dei compiti. Per colmare queste lacune, introduciamo MCIF (Multimodal Crosslingual Instruction Following), il primo benchmark multilingue annotato da esseri umani basato su conferenze scientifiche, progettato per valutare il seguire istruzioni in contesti crosslingue e multimodali su input sia brevi che lunghi. MCIF abbraccia tre modalità principali — parlato, visione e testo — e quattro lingue diverse (inglese, tedesco, italiano e cinese), consentendo una valutazione completa delle capacità degli MLLM di interpretare istruzioni attraverso lingue e di combinarle con informazioni contestuali multimodali. MCIF è rilasciato con licenza CC-BY 4.0 per incoraggiare la ricerca aperta e il progresso nello sviluppo degli MLLM.
English
Recent advances in large language models have catalyzed the development of
multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified
frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to
general-purpose instruction-following models, a key frontier lies in evaluating
their multilingual and multimodal capabilities over both long and short
contexts. However, existing benchmarks fall short in evaluating these
dimensions jointly: they are often limited to English, mostly focus on one
single modality at a time, rely on short-form contexts, or lack human
annotations -- hindering comprehensive assessment of model performance across
languages, modalities, and task complexity. To address these gaps, we introduce
MCIF (Multimodal Crosslingual Instruction Following), the first multilingual
human-annotated benchmark based on scientific talks that is designed to
evaluate instruction-following in crosslingual, multimodal settings over both
short- and long-form inputs. MCIF spans three core modalities -- speech,
vision, and text -- and four diverse languages (English, German, Italian, and
Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret
instructions across languages and combine them with multimodal contextual
information. MCIF is released under a CC-BY 4.0 license to encourage open
research and progress in MLLMs development.