MusiXQA: Avançando na Compreensão Visual de Música em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm alcançado habilidades notáveis de raciocínio visual em imagens naturais, documentos ricos em texto e designs gráficos. No entanto, sua capacidade de interpretar partituras musicais permanece pouco explorada. Para preencher essa lacuna, apresentamos o MusiXQA, o primeiro conjunto de dados abrangente para avaliar e avançar os MLLMs na compreensão de partituras musicais. O MusiXQA apresenta partituras sintéticas de alta qualidade geradas via MusiXTeX, com anotações estruturadas cobrindo altura e duração das notas, acordes, claves, assinaturas de clave e compasso, e texto, permitindo diversas tarefas de questionamento visual. Por meio de avaliações extensivas, revelamos limitações significativas dos MLLMs state-of-the-art atuais nesse domínio. Além de benchmarking, desenvolvemos o Phi-3-MusiX, um MLLM ajustado em nosso conjunto de dados, alcançando ganhos significativos de desempenho em relação a métodos baseados em GPT. O conjunto de dados e o modelo propostos estabelecem uma base para avanços futuros em MLLMs para a compreensão de partituras musicais. Código, dados e modelo serão liberados após a aceitação.

English

Multimodal Large Language Models (MLLMs) have achieved remarkable visual reasoning abilities in natural images, text-rich documents, and graphic designs. However, their ability to interpret music sheets remains underexplored. To bridge this gap, we introduce MusiXQA, the first comprehensive dataset for evaluating and advancing MLLMs in music sheet understanding. MusiXQA features high-quality synthetic music sheets generated via MusiXTeX, with structured annotations covering note pitch and duration, chords, clefs, key/time signatures, and text, enabling diverse visual QA tasks. Through extensive evaluations, we reveal significant limitations of current state-of-the-art MLLMs in this domain. Beyond benchmarking, we developed Phi-3-MusiX, an MLLM fine-tuned on our dataset, achieving significant performance gains over GPT-based methods. The proposed dataset and model establish a foundation for future advances in MLLMs for music sheet understanding. Code, data, and model will be released upon acceptance.

MusiXQA: Avançando na Compreensão Visual de Música em Modelos de Linguagem Multimodais de Grande Escala

MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models

Resumo

Support