ChatPaper.aiChatPaper

MCIF: Multimodaler, mehrsprachiger Benchmark zur Befolgung von Anweisungen basierend auf wissenschaftlichen Vorträgen

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

July 25, 2025
papers.authors: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen haben die Entwicklung multimodaler LLMs (MLLMs) vorangetrieben, die Text, Sprache und Bild in einheitlichen Frameworks integrieren. Während sich MLLMs von eng begrenzten, monolingualen, aufgabenorientierten Systemen zu allgemeinen, befehlsfolgenden Modellen entwickeln, liegt eine zentrale Herausforderung in der Bewertung ihrer mehrsprachigen und multimodalen Fähigkeiten sowohl in langen als auch in kurzen Kontexten. Bisherige Benchmarks sind jedoch unzureichend, um diese Dimensionen gemeinsam zu bewerten: Sie beschränken sich oft auf Englisch, konzentrieren sich meist auf eine einzelne Modalität, basieren auf kurzen Kontexten oder fehlen menschliche Annotationen – was eine umfassende Bewertung der Modellleistung über Sprachen, Modalitäten und Aufgabenkomplexität hinweg behindert. Um diese Lücken zu schließen, stellen wir MCIF (Multimodal Crosslingual Instruction Following) vor, den ersten mehrsprachigen, menschlich annotierten Benchmark, der auf wissenschaftlichen Vorträgen basiert und darauf ausgelegt ist, die Befolgung von Anweisungen in mehrsprachigen, multimodalen Kontexten sowohl für kurze als auch lange Eingaben zu bewerten. MCIF umfasst drei Kernmodalitäten – Sprache, Bild und Text – sowie vier verschiedene Sprachen (Englisch, Deutsch, Italienisch und Chinesisch), was eine umfassende Bewertung der Fähigkeiten von MLLMs ermöglicht, Anweisungen über Sprachen hinweg zu interpretieren und sie mit multimodalen Kontextinformationen zu kombinieren. MCIF wird unter einer CC-BY 4.0-Lizenz veröffentlicht, um offene Forschung und Fortschritte in der Entwicklung von MLLMs zu fördern.
English
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
PDF92August 4, 2025