ChatPaper.aiChatPaper

MCIF: Punto de Referencia Multimodal y Translingüístico para el Seguimiento de Instrucciones a partir de Charlas Científicas

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

July 25, 2025
Autores: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala han impulsado el desarrollo de modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) que integran texto, habla y visión dentro de marcos unificados. A medida que los MLLMs evolucionan desde sistemas monolingües, específicos para tareas y de alcance limitado hacia modelos de propósito general que siguen instrucciones, una frontera clave radica en evaluar sus capacidades multilingües y multimodales tanto en contextos largos como cortos. Sin embargo, los puntos de referencia existentes no logran evaluar estas dimensiones de manera conjunta: a menudo se limitan al inglés, se centran principalmente en una sola modalidad a la vez, dependen de contextos de formato corto o carecen de anotaciones humanas, lo que dificulta una evaluación integral del rendimiento de los modelos en diferentes idiomas, modalidades y niveles de complejidad de las tareas. Para abordar estas brechas, presentamos MCIF (Multimodal Crosslingual Instruction Following), el primer punto de referencia multilingüe con anotaciones humanas basado en charlas científicas, diseñado para evaluar el seguimiento de instrucciones en entornos multilingües y multimodales tanto en entradas de formato corto como largo. MCIF abarca tres modalidades principales —habla, visión y texto— y cuatro idiomas diversos (inglés, alemán, italiano y chino), permitiendo una evaluación exhaustiva de las capacidades de los MLLMs para interpretar instrucciones en diferentes idiomas y combinarlas con información contextual multimodal. MCIF se publica bajo una licencia CC-BY 4.0 para fomentar la investigación abierta y el progreso en el desarrollo de MLLMs.
English
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
PDF92August 4, 2025