ChatPaper.aiChatPaper

MusiXQA : Progrès dans la compréhension visuelle de la musique avec les modèles de langage multimodaux de grande envergure

MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models

June 28, 2025
Auteurs: Jian Chen, Wenye Ma, Penghang Liu, Wei Wang, Tengwei Song, Ming Li, Chenguang Wang, Ruiyi Zhang, Changyou Chen
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables en raisonnement visuel pour les images naturelles, les documents riches en texte et les conceptions graphiques. Cependant, leur aptitude à interpréter les partitions musicales reste peu explorée. Pour combler cette lacune, nous introduisons MusiXQA, le premier ensemble de données complet pour évaluer et faire progresser les MLLMs dans la compréhension des partitions musicales. MusiXQA propose des partitions de haute qualité générées via MusiXTeX, avec des annotations structurées couvrant la hauteur et la durée des notes, les accords, les clés, les signatures de tonalité et de mesure, ainsi que le texte, permettant ainsi des tâches variées de question-réponse visuelle. À travers des évaluations approfondies, nous révélons des limitations significatives des MLLMs actuels les plus performants dans ce domaine. Au-delà du benchmarking, nous avons développé Phi-3-MusiX, un MLLM affiné sur notre ensemble de données, obtenant des gains de performance significatifs par rapport aux méthodes basées sur GPT. L'ensemble de données et le modèle proposés établissent une base pour les avancées futures des MLLMs dans la compréhension des partitions musicales. Le code, les données et le modèle seront publiés après acceptation.
English
Multimodal Large Language Models (MLLMs) have achieved remarkable visual reasoning abilities in natural images, text-rich documents, and graphic designs. However, their ability to interpret music sheets remains underexplored. To bridge this gap, we introduce MusiXQA, the first comprehensive dataset for evaluating and advancing MLLMs in music sheet understanding. MusiXQA features high-quality synthetic music sheets generated via MusiXTeX, with structured annotations covering note pitch and duration, chords, clefs, key/time signatures, and text, enabling diverse visual QA tasks. Through extensive evaluations, we reveal significant limitations of current state-of-the-art MLLMs in this domain. Beyond benchmarking, we developed Phi-3-MusiX, an MLLM fine-tuned on our dataset, achieving significant performance gains over GPT-based methods. The proposed dataset and model establish a foundation for future advances in MLLMs for music sheet understanding. Code, data, and model will be released upon acceptance.
PDF71July 2, 2025