MusiXQA: Vooruitgang in Visueel Muziekbegrip in Multimodale Grote Taalmodellen
MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models
June 28, 2025
Auteurs: Jian Chen, Wenye Ma, Penghang Liu, Wei Wang, Tengwei Song, Ming Li, Chenguang Wang, Ruiyi Zhang, Changyou Chen
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben opmerkelijke visuele redeneervaardigheden bereikt in natuurlijke afbeeldingen, tekstrijke documenten en grafische ontwerpen. Hun vermogen om bladmuziek te interpreteren blijft echter onderbelicht. Om deze kloof te overbruggen, introduceren we MusiXQA, de eerste uitgebreide dataset voor het evalueren en bevorderen van MLLMs in het begrijpen van bladmuziek. MusiXQA bevat hoogwaardige synthetische bladmuziek gegenereerd via MusiXTeX, met gestructureerde annotaties die notenhoogte en -duur, akkoorden, sleutels, toonsoort/maatsoort en tekst omvatten, waardoor diverse visuele vraag-antwoordtaken mogelijk worden. Door uitgebreide evaluaties onthullen we aanzienlijke beperkingen van huidige state-of-the-art MLLMs op dit gebied. Naast benchmarking hebben we Phi-3-MusiX ontwikkeld, een MLLM die is afgestemd op onze dataset en aanzienlijke prestatieverbeteringen behaalt ten opzichte van GPT-gebaseerde methoden. De voorgestelde dataset en het model leggen een basis voor toekomstige vooruitgang in MLLMs voor het begrijpen van bladmuziek. Code, data en het model zullen worden vrijgegeven na acceptatie.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable visual
reasoning abilities in natural images, text-rich documents, and graphic
designs. However, their ability to interpret music sheets remains
underexplored. To bridge this gap, we introduce MusiXQA, the first
comprehensive dataset for evaluating and advancing MLLMs in music sheet
understanding. MusiXQA features high-quality synthetic music sheets generated
via MusiXTeX, with structured annotations covering note pitch and duration,
chords, clefs, key/time signatures, and text, enabling diverse visual QA tasks.
Through extensive evaluations, we reveal significant limitations of current
state-of-the-art MLLMs in this domain. Beyond benchmarking, we developed
Phi-3-MusiX, an MLLM fine-tuned on our dataset, achieving significant
performance gains over GPT-based methods. The proposed dataset and model
establish a foundation for future advances in MLLMs for music sheet
understanding. Code, data, and model will be released upon acceptance.