ChatPaper.aiChatPaper

Libretto: LLM 에이전트에 음악적 구조 감각 부여하기

Libretto: Giving LLM Agents a Sense of Musical Structure

June 21, 2026
저자: Yichen Xu
cs.AI

초록

생성 음악 시스템은 이제 텍스트 프롬프트로 인상적인 오디오를 생성할 수 있지만, 오디오 출력은 음악 구조로 검사, 편집 및 진단하기 어렵다. 본 논문에서는 기호 음악 생성 및 수정을 위한 에이전트 중심 프레임워크인 Libretto를 소개한다. Libretto는 명시적인 온셋 슬롯, 성부 및 마디 수준 구성이 포함된 LLM 고유 문법을 사용한 후, 각 작품을 리듬, 화성, 선율, 질감, 형식 및 변주에 걸쳐 코퍼스 보정 통계 공간에서 평가한다. 동일한 구조적 축은 검색, 진단, 복사 위험 제어 및 반복적 자가 수정을 지원한다. 간격 채우기, 참조 기반 전체 작품 생성, 점진적 변형 및 교육용 음악 생성을 통해 Libretto는 기호 음악을 원시 토큰 시퀀스에서 언어 모델 에이전트가 측정 및 편집 가능한 객체로 전환한다.
English
Generative music systems can now produce impressive audio from text prompts, but audio outputs are difficult to inspect, edit, and diagnose as musical structure. We introduce Libretto, an agent-facing framework for symbolic music generation and revision. Libretto uses an LLM-native grammar with explicit onset slots, voices, and bar-level organization, then evaluates each piece in a corpus-calibrated statistical space over rhythm, harmony, melody, texture, form, and variation. The same structural axes support retrieval, diagnosis, copy-risk control, and iterative self-revision. Across gap filling, reference-guided full-piece generation, gradual morphing, and educational music generation, Libretto turns symbolic music from a raw token sequence into a measurable and editable object for language-model agents.