ChatPaper.aiChatPaper

MCIF: Мультимодальный кросс-лингвальный бенчмарк для выполнения инструкций на основе научных докладов

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

July 25, 2025
Авторы: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI

Аннотация

Недавние достижения в области крупных языковых моделей стимулировали развитие мультимодальных языковых моделей (MLLMs), которые интегрируют текст, речь и визуальные данные в единые структуры. По мере того как MLLMs эволюционируют от узкоспециализированных, одноязычных систем к моделям общего назначения, способным выполнять инструкции, ключевым направлением становится оценка их мультиязычных и мультимодальных возможностей как в длинных, так и в коротких контекстах. Однако существующие тестовые наборы не справляются с совместной оценкой этих аспектов: они часто ограничены английским языком, в основном сосредоточены на одной модальности за раз, опираются на короткие контексты или не содержат аннотаций, созданных человеком, что затрудняет всестороннюю оценку производительности моделей в различных языках, модальностях и уровнях сложности задач. Чтобы устранить эти пробелы, мы представляем MCIF (Multimodal Crosslingual Instruction Following) — первый мультиязычный тестовый набор с аннотациями, созданными человеком, основанный на научных докладах и предназначенный для оценки выполнения инструкций в кросс-языковых и мультимодальных условиях как для коротких, так и для длинных входных данных. MCIF охватывает три основные модальности — речь, визуальные данные и текст — и четыре различных языка (английский, немецкий, итальянский и китайский), что позволяет провести всестороннюю оценку способностей MLLMs интерпретировать инструкции на разных языках и комбинировать их с мультимодальной контекстной информацией. MCIF выпущен под лицензией CC-BY 4.0 для поощрения открытых исследований и прогресса в разработке MLLMs.
English
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
PDF92August 4, 2025