ChatPaper.aiChatPaper

MCIF: 과학 강연 기반 다중모드 크로스링구얼 명령어 수행 벤치마크

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

July 25, 2025
저자: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues
cs.AI

초록

대규모 언어 모델의 최근 발전은 텍스트, 음성, 시각을 통합된 프레임워크 내에서 결합하는 다중모달 대형 언어 모델(MLLM)의 개발을 촉진시켰다. MLLM이 특정 작업에 국한된 단일 언어 시스템에서 일반 목적의 명령 수행 모델로 진화함에 따라, 주요 연구 방향은 다국어 및 다중모달 능력을 장단기 문맥에서 평가하는 데 있다. 그러나 기존 벤치마크는 이러한 차원을 종합적으로 평가하는 데 한계가 있다: 주로 영어에 국한되어 있고, 대부분 한 번에 하나의 모달리티에 초점을 맞추며, 짧은 문맥에 의존하거나, 인간 주석이 부족하여 언어, 모달리티, 작업 복잡성에 걸친 모델 성능의 포괄적인 평가를 방해한다. 이러한 격차를 해결하기 위해, 우리는 MCIF(Multimodal Crosslingual Instruction Following)를 소개한다. 이는 과학 강연을 기반으로 한 최초의 다국어 인간 주석 벤치마크로, 단기 및 장기 입력에 걸쳐 다국어 및 다중모달 환경에서 명령 수행 능력을 평가하도록 설계되었다. MCIF는 음성, 시각, 텍스트라는 세 가지 핵심 모달리티와 영어, 독일어, 이탈리아어, 중국어라는 네 가지 다양한 언어를 포괄하여, MLLM이 다양한 언어 간 명령을 해석하고 다중모달 문맥 정보와 결합하는 능력을 종합적으로 평가할 수 있도록 한다. MCIF는 CC-BY 4.0 라이선스 하에 공개되어 MLLM 개발의 개방적 연구와 진전을 장려한다.
English
Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations -- hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities -- speech, vision, and text -- and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
PDF92August 4, 2025