ChatPaper.aiChatPaper

Либретто: наделение LLM-агентов чувством музыкальной структуры

Libretto: Giving LLM Agents a Sense of Musical Structure

June 21, 2026
Авторы: Yichen Xu
cs.AI

Аннотация

Генеративные музыкальные системы теперь способны создавать впечатляющие аудиофайлы по текстовым подсказкам, однако аудиовыходы сложно проверять, редактировать и диагностировать с точки зрения музыкальной структуры. Мы представляем Libretto — ориентированную на агентов структуру для генерации и редактирования символической музыки. Libretto использует нативную для LLM грамматику с явными слотами начала, голосами и организацией на уровне тактов, а затем оценивает каждое произведение в статистическом пространстве, калиброванном по корпусу, по параметрам ритма, гармонии, мелодии, фактуры, формы и вариации. Те же структурные оси поддерживают поиск, диагностику, контроль риска копирования и итеративную саморедакцию. При заполнении пропусков, генерации целого произведения по образцу, постепенном морфинге и генерации учебной музыки Libretto превращает символическую музыку из последовательности необработанных токенов в измеримый и редактируемый объект для агентов на основе языковых моделей.
English
Generative music systems can now produce impressive audio from text prompts, but audio outputs are difficult to inspect, edit, and diagnose as musical structure. We introduce Libretto, an agent-facing framework for symbolic music generation and revision. Libretto uses an LLM-native grammar with explicit onset slots, voices, and bar-level organization, then evaluates each piece in a corpus-calibrated statistical space over rhythm, harmony, melody, texture, form, and variation. The same structural axes support retrieval, diagnosis, copy-risk control, and iterative self-revision. Across gap filling, reference-guided full-piece generation, gradual morphing, and educational music generation, Libretto turns symbolic music from a raw token sequence into a measurable and editable object for language-model agents.