ChatPaper.aiChatPaper

Libreto: Dotar a los agentes LLM de un sentido de la estructura musical

Libretto: Giving LLM Agents a Sense of Musical Structure

June 21, 2026
Autores: Yichen Xu
cs.AI

Resumen

Los sistemas de música generativa pueden ahora producir impresionantes audios a partir de indicaciones textuales, pero las salidas de audio son difíciles de inspeccionar, editar y diagnosticar como estructura musical. Presentamos Libretto, un marco orientado a agentes para la generación y revisión de música simbólica. Libretto utiliza una gramática nativa de LLM con ranuras de inicio explícitas, voces y organización a nivel de compás, y luego evalúa cada pieza en un espacio estadístico calibrado con corpus sobre ritmo, armonía, melodía, textura, forma y variación. Los mismos ejes estructurales respaldan la recuperación, el diagnóstico, el control de riesgo de copia y la autorrevisión iterativa. En tareas de relleno de huecos, generación de piezas completas guiada por referencia, transformación gradual y generación de música educativa, Libretto convierte la música simbólica de una secuencia de tokens en bruto en un objeto medible y editable para agentes de modelos de lenguaje.
English
Generative music systems can now produce impressive audio from text prompts, but audio outputs are difficult to inspect, edit, and diagnose as musical structure. We introduce Libretto, an agent-facing framework for symbolic music generation and revision. Libretto uses an LLM-native grammar with explicit onset slots, voices, and bar-level organization, then evaluates each piece in a corpus-calibrated statistical space over rhythm, harmony, melody, texture, form, and variation. The same structural axes support retrieval, diagnosis, copy-risk control, and iterative self-revision. Across gap filling, reference-guided full-piece generation, gradual morphing, and educational music generation, Libretto turns symbolic music from a raw token sequence into a measurable and editable object for language-model agents.