ChatPaper.aiChatPaper

MCIF: Benchmark Multimodal e Translinguístico de Seguimento de Instruções a partir de Palestras Científicas

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

July 25, 2025
Autores: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) catalisaram o desenvolvimento de LLMs multimodais (MLLMs) que integram texto, fala e visão em estruturas unificadas. À medida que os MLLMs evoluem de sistemas monolíngues e específicos para tarefas para modelos de propósito geral que seguem instruções, uma fronteira crucial reside na avaliação de suas capacidades multilingues e multimodais em contextos tanto longos quanto curtos. No entanto, os benchmarks existentes falham em avaliar essas dimensões conjuntamente: eles frequentemente se limitam ao inglês, focam principalmente em uma única modalidade por vez, dependem de contextos de curta duração ou carecem de anotações humanas — o que dificulta uma avaliação abrangente do desempenho dos modelos em diferentes idiomas, modalidades e complexidades de tarefas. Para abordar essas lacunas, introduzimos o MCIF (Multimodal Crosslingual Instruction Following), o primeiro benchmark multilingue anotado por humanos, baseado em palestras científicas, projetado para avaliar o seguimento de instruções em cenários multilingues e multimodais, tanto para entradas de curta quanto de longa duração. O MCIF abrange três modalidades principais — fala, visão e texto — e quatro idiomas diversos (inglês, alemão, italiano e chinês), permitindo uma avaliação abrangente das habilidades dos MLLMs em interpretar instruções em diferentes idiomas e combiná-las com informações contextuais multimodais. O MCIF é disponibilizado sob uma licença CC-BY 4.0 para incentivar pesquisas abertas e o progresso no desenvolvimento de MLLMs.
English
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
PDF92August 4, 2025