AudioStory: Erzeugung von langformatigen narrativen Audioinhalten mit großen Sprachmodellen
AudioStory: Generating Long-Form Narrative Audio with Large Language Models
August 27, 2025
papers.authors: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
cs.AI
papers.abstract
Jüngste Fortschritte in der Text-zu-Audio (TTA)-Generierung zeichnen sich durch die Synthese kurzer Audioclips aus, haben jedoch Schwierigkeiten mit langen narrativen Audioformaten, die zeitliche Kohärenz und kompositionelle Logik erfordern. Um diese Lücke zu schließen, schlagen wir AudioStory vor, ein einheitliches Framework, das große Sprachmodelle (LLMs) mit TTA-Systemen integriert, um strukturierte, lange Audio-Narrative zu generieren. AudioStory verfügt über starke Fähigkeiten zur instruktionsbasierten Generierung und Logik. Es nutzt LLMs, um komplexe narrative Anfragen in zeitlich geordnete Teilaufgaben mit kontextuellen Hinweisen zu zerlegen, wodurch kohärente Szenenübergänge und konsistente emotionale Töne ermöglicht werden. AudioStory weist zwei ansprechende Merkmale auf: (1) Entkoppelter Brückenmechanismus: AudioStory trennt die Zusammenarbeit zwischen LLM und Diffuser in zwei spezialisierte Komponenten, nämlich eine Brückenabfrage für die semantische Ausrichtung innerhalb von Ereignissen und eine Restabfrage für die Bewahrung der Kohärenz zwischen Ereignissen. (2) End-to-End-Training: Durch die Vereinheitlichung von Anweisungsverständnis und Audiogenerierung in einem einzigen end-to-end Framework eliminiert AudioStory die Notwendigkeit modularer Trainingspipelines und verbessert gleichzeitig die Synergie zwischen den Komponenten. Darüber hinaus haben wir einen Benchmark, AudioStory-10K, etabliert, der verschiedene Domänen wie animierte Klanglandschaften und natürliche Klang-Narrative umfasst. Umfangreiche Experimente zeigen die Überlegenheit von AudioStory sowohl bei der Einzel-Audio-Generierung als auch bei der narrativen Audio-Generierung, wobei es frühere TTA-Baselines sowohl in der Anweisungsbefolgung als auch in der Audio-Treue übertrifft. Unser Code ist verfügbar unter https://github.com/TencentARC/AudioStory.
English
Recent advances in text-to-audio (TTA) generation excel at synthesizing short
audio clips but struggle with long-form narrative audio, which requires
temporal coherence and compositional reasoning. To address this gap, we propose
AudioStory, a unified framework that integrates large language models (LLMs)
with TTA systems to generate structured, long-form audio narratives. AudioStory
possesses strong instruction-following reasoning generation capabilities. It
employs LLMs to decompose complex narrative queries into temporally ordered
sub-tasks with contextual cues, enabling coherent scene transitions and
emotional tone consistency. AudioStory has two appealing features: (1)
Decoupled bridging mechanism: AudioStory disentangles LLM-diffuser
collaboration into two specialized components, i.e., a bridging query for
intra-event semantic alignment and a residual query for cross-event coherence
preservation. (2) End-to-end training: By unifying instruction comprehension
and audio generation within a single end-to-end framework, AudioStory
eliminates the need for modular training pipelines while enhancing synergy
between components. Furthermore, we establish a benchmark AudioStory-10K,
encompassing diverse domains such as animated soundscapes and natural sound
narratives. Extensive experiments show the superiority of AudioStory on both
single-audio generation and narrative audio generation, surpassing prior TTA
baselines in both instruction-following ability and audio fidelity. Our code is
available at https://github.com/TencentARC/AudioStory