ChatPaper.aiChatPaper

Libretto : Donner aux agents LLM un sens de la structure musicale

Libretto: Giving LLM Agents a Sense of Musical Structure

June 21, 2026
Auteurs: Yichen Xu
cs.AI

Résumé

Les systèmes de génération musicale peuvent désormais produire des résultats audio impressionnants à partir de consignes textuelles, mais ces sorties audio restent difficiles à inspecter, modifier et diagnostiquer en termes de structure musicale. Nous présentons Libretto, un cadre orienté agent pour la génération et la révision de musique symbolique. Libretto utilise une grammaire native aux LLM avec des créneaux d'attaque explicites, des voix et une organisation au niveau de la mesure, puis évalue chaque pièce dans un espace statistique calibré sur corpus portant sur le rythme, l'harmonie, la mélodie, la texture, la forme et la variation. Ces mêmes axes structurels permettent la recherche, le diagnostic, le contrôle du risque de copie et l'auto-révision itérative. Dans des tâches de remplissage de lacunes, de génération complète guidée par référence, de morphing progressif et de génération musicale éducative, Libretto transforme la musique symbolique d'une séquence brute de tokens en un objet mesurable et modifiable pour les agents basés sur des modèles de langage.
English
Generative music systems can now produce impressive audio from text prompts, but audio outputs are difficult to inspect, edit, and diagnose as musical structure. We introduce Libretto, an agent-facing framework for symbolic music generation and revision. Libretto uses an LLM-native grammar with explicit onset slots, voices, and bar-level organization, then evaluates each piece in a corpus-calibrated statistical space over rhythm, harmony, melody, texture, form, and variation. The same structural axes support retrieval, diagnosis, copy-risk control, and iterative self-revision. Across gap filling, reference-guided full-piece generation, gradual morphing, and educational music generation, Libretto turns symbolic music from a raw token sequence into a measurable and editable object for language-model agents.