오디오스토리: 대규모 언어 모델을 활용한 장편 내러티브 오디오 생성
AudioStory: Generating Long-Form Narrative Audio with Large Language Models
August 27, 2025
저자: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
cs.AI
초록
최근 텍스트-오디오(TTA) 생성 기술은 짧은 오디오 클립 합성에서는 뛰어난 성과를 보이지만, 시간적 일관성과 구성적 추론이 요구되는 장편 내러티브 오디오 생성에는 어려움을 겪고 있다. 이러한 격차를 해결하기 위해, 우리는 대규모 언어 모델(LLM)과 TTA 시스템을 통합하여 구조화된 장편 오디오 내러티브를 생성하는 통합 프레임워크인 AudioStory를 제안한다. AudioStory는 강력한 지시-따르기 추론 생성 능력을 갖추고 있다. 이는 LLM을 활용하여 복잡한 내러티브 질의를 시간 순서대로 정렬된 하위 작업과 문맥적 단서로 분해함으로써, 일관된 장면 전환과 감정적 톤의 일관성을 가능하게 한다. AudioStory는 두 가지 매력적인 특징을 가지고 있다: (1) 분리된 브리징 메커니즘: AudioStory는 LLM과 디퓨저의 협업을 두 가지 전문화된 구성 요소로 분리한다. 즉, 이벤트 내 의미적 정렬을 위한 브리징 질의와 이벤트 간 일관성 유지를 위한 잔여 질의이다. (2) 종단 간 학습: 지시 이해와 오디오 생성을 단일 종단 간 프레임워크 내에서 통합함으로써, AudioStory는 모듈식 학습 파이프라인의 필요성을 없애고 구성 요소 간의 시너지를 강화한다. 또한, 우리는 애니메이션 사운드스케이프와 자연 소리 내러티브 등 다양한 도메인을 포괄하는 벤치마크 AudioStory-10K를 구축했다. 광범위한 실험을 통해 AudioStory가 단일 오디오 생성과 내러티브 오디오 생성 모두에서 우수성을 보이며, 지시-따르기 능력과 오디오 충실도 측면에서 기존 TTA 기준선을 능가함을 입증했다. 우리의 코드는 https://github.com/TencentARC/AudioStory에서 확인할 수 있다.
English
Recent advances in text-to-audio (TTA) generation excel at synthesizing short
audio clips but struggle with long-form narrative audio, which requires
temporal coherence and compositional reasoning. To address this gap, we propose
AudioStory, a unified framework that integrates large language models (LLMs)
with TTA systems to generate structured, long-form audio narratives. AudioStory
possesses strong instruction-following reasoning generation capabilities. It
employs LLMs to decompose complex narrative queries into temporally ordered
sub-tasks with contextual cues, enabling coherent scene transitions and
emotional tone consistency. AudioStory has two appealing features: (1)
Decoupled bridging mechanism: AudioStory disentangles LLM-diffuser
collaboration into two specialized components, i.e., a bridging query for
intra-event semantic alignment and a residual query for cross-event coherence
preservation. (2) End-to-end training: By unifying instruction comprehension
and audio generation within a single end-to-end framework, AudioStory
eliminates the need for modular training pipelines while enhancing synergy
between components. Furthermore, we establish a benchmark AudioStory-10K,
encompassing diverse domains such as animated soundscapes and natural sound
narratives. Extensive experiments show the superiority of AudioStory on both
single-audio generation and narrative audio generation, surpassing prior TTA
baselines in both instruction-following ability and audio fidelity. Our code is
available at https://github.com/TencentARC/AudioStory