MusiXQA: Avançando na Compreensão Visual de Música em Modelos de Linguagem Multimodais de Grande Escala
MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models
June 28, 2025
Autores: Jian Chen, Wenye Ma, Penghang Liu, Wei Wang, Tengwei Song, Ming Li, Chenguang Wang, Ruiyi Zhang, Changyou Chen
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm alcançado habilidades notáveis de raciocínio visual em imagens naturais, documentos ricos em texto e designs gráficos. No entanto, sua capacidade de interpretar partituras musicais permanece pouco explorada. Para preencher essa lacuna, apresentamos o MusiXQA, o primeiro conjunto de dados abrangente para avaliar e avançar os MLLMs na compreensão de partituras musicais. O MusiXQA apresenta partituras sintéticas de alta qualidade geradas via MusiXTeX, com anotações estruturadas cobrindo altura e duração das notas, acordes, claves, assinaturas de clave e compasso, e texto, permitindo diversas tarefas de questionamento visual. Por meio de avaliações extensivas, revelamos limitações significativas dos MLLMs state-of-the-art atuais nesse domínio. Além de benchmarking, desenvolvemos o Phi-3-MusiX, um MLLM ajustado em nosso conjunto de dados, alcançando ganhos significativos de desempenho em relação a métodos baseados em GPT. O conjunto de dados e o modelo propostos estabelecem uma base para avanços futuros em MLLMs para a compreensão de partituras musicais. Código, dados e modelo serão liberados após a aceitação.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable visual
reasoning abilities in natural images, text-rich documents, and graphic
designs. However, their ability to interpret music sheets remains
underexplored. To bridge this gap, we introduce MusiXQA, the first
comprehensive dataset for evaluating and advancing MLLMs in music sheet
understanding. MusiXQA features high-quality synthetic music sheets generated
via MusiXTeX, with structured annotations covering note pitch and duration,
chords, clefs, key/time signatures, and text, enabling diverse visual QA tasks.
Through extensive evaluations, we reveal significant limitations of current
state-of-the-art MLLMs in this domain. Beyond benchmarking, we developed
Phi-3-MusiX, an MLLM fine-tuned on our dataset, achieving significant
performance gains over GPT-based methods. The proposed dataset and model
establish a foundation for future advances in MLLMs for music sheet
understanding. Code, data, and model will be released upon acceptance.