AudioStory: Het Genereren van Lange Narratieve Audio met Grote Taalmodellen
AudioStory: Generating Long-Form Narrative Audio with Large Language Models
August 27, 2025
Auteurs: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-audio (TTA) generatie blinkt uit in het synthetiseren van korte audioclips, maar heeft moeite met langere narratieve audio, wat temporele samenhang en compositioneel redeneren vereist. Om deze kloof te overbruggen, stellen we AudioStory voor, een uniform raamwerk dat grote taalmodellen (LLMs) integreert met TTA-systemen om gestructureerde, langere audioverhalen te genereren. AudioStory beschikt over sterke instructievolgende redeneergeneratiecapaciteiten. Het gebruikt LLMs om complexe narratieve queries te ontbinden in temporeel geordende sub-taken met contextuele aanwijzingen, waardoor coherente scènewisselingen en emotionele toonconsistentie mogelijk worden. AudioStory heeft twee aantrekkelijke kenmerken: (1) Ontkoppeld brugmechanisme: AudioStory ontwart de samenwerking tussen LLM en diffuser in twee gespecialiseerde componenten, namelijk een brugquery voor intra-gebeurtenis semantische uitlijning en een restquery voor cross-gebeurtenis samenhangbehoud. (2) End-to-end training: Door instructiebegrip en audiogeneratie te verenigen binnen een enkel end-to-end raamwerk, elimineert AudioStory de noodzaak voor modulaire trainingspijplijnen terwijl de synergie tussen componenten wordt versterkt. Bovendien hebben we een benchmark AudioStory-10K opgesteld, die diverse domeinen omvat, zoals geanimeerde soundscapes en natuurlijke geluidsnarratieven. Uitgebreide experimenten tonen de superioriteit van AudioStory aan bij zowel het genereren van enkele audio als narratieve audio, waarbij het eerdere TTA-baselines overtreft in zowel instructievolgend vermogen als audiofideliteit. Onze code is beschikbaar op https://github.com/TencentARC/AudioStory.
English
Recent advances in text-to-audio (TTA) generation excel at synthesizing short
audio clips but struggle with long-form narrative audio, which requires
temporal coherence and compositional reasoning. To address this gap, we propose
AudioStory, a unified framework that integrates large language models (LLMs)
with TTA systems to generate structured, long-form audio narratives. AudioStory
possesses strong instruction-following reasoning generation capabilities. It
employs LLMs to decompose complex narrative queries into temporally ordered
sub-tasks with contextual cues, enabling coherent scene transitions and
emotional tone consistency. AudioStory has two appealing features: (1)
Decoupled bridging mechanism: AudioStory disentangles LLM-diffuser
collaboration into two specialized components, i.e., a bridging query for
intra-event semantic alignment and a residual query for cross-event coherence
preservation. (2) End-to-end training: By unifying instruction comprehension
and audio generation within a single end-to-end framework, AudioStory
eliminates the need for modular training pipelines while enhancing synergy
between components. Furthermore, we establish a benchmark AudioStory-10K,
encompassing diverse domains such as animated soundscapes and natural sound
narratives. Extensive experiments show the superiority of AudioStory on both
single-audio generation and narrative audio generation, surpassing prior TTA
baselines in both instruction-following ability and audio fidelity. Our code is
available at https://github.com/TencentARC/AudioStory