ChatPaper.aiChatPaper

AudioStory: Het Genereren van Lange Narratieve Audio met Grote Taalmodellen

AudioStory: Generating Long-Form Narrative Audio with Large Language Models

August 27, 2025
Auteurs: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-audio (TTA) generatie blinkt uit in het synthetiseren van korte audioclips, maar heeft moeite met langere narratieve audio, wat temporele samenhang en compositioneel redeneren vereist. Om deze kloof te overbruggen, stellen we AudioStory voor, een uniform raamwerk dat grote taalmodellen (LLMs) integreert met TTA-systemen om gestructureerde, langere audioverhalen te genereren. AudioStory beschikt over sterke instructievolgende redeneergeneratiecapaciteiten. Het gebruikt LLMs om complexe narratieve queries te ontbinden in temporeel geordende sub-taken met contextuele aanwijzingen, waardoor coherente scènewisselingen en emotionele toonconsistentie mogelijk worden. AudioStory heeft twee aantrekkelijke kenmerken: (1) Ontkoppeld brugmechanisme: AudioStory ontwart de samenwerking tussen LLM en diffuser in twee gespecialiseerde componenten, namelijk een brugquery voor intra-gebeurtenis semantische uitlijning en een restquery voor cross-gebeurtenis samenhangbehoud. (2) End-to-end training: Door instructiebegrip en audiogeneratie te verenigen binnen een enkel end-to-end raamwerk, elimineert AudioStory de noodzaak voor modulaire trainingspijplijnen terwijl de synergie tussen componenten wordt versterkt. Bovendien hebben we een benchmark AudioStory-10K opgesteld, die diverse domeinen omvat, zoals geanimeerde soundscapes en natuurlijke geluidsnarratieven. Uitgebreide experimenten tonen de superioriteit van AudioStory aan bij zowel het genereren van enkele audio als narratieve audio, waarbij het eerdere TTA-baselines overtreft in zowel instructievolgend vermogen als audiofideliteit. Onze code is beschikbaar op https://github.com/TencentARC/AudioStory.
English
Recent advances in text-to-audio (TTA) generation excel at synthesizing short audio clips but struggle with long-form narrative audio, which requires temporal coherence and compositional reasoning. To address this gap, we propose AudioStory, a unified framework that integrates large language models (LLMs) with TTA systems to generate structured, long-form audio narratives. AudioStory possesses strong instruction-following reasoning generation capabilities. It employs LLMs to decompose complex narrative queries into temporally ordered sub-tasks with contextual cues, enabling coherent scene transitions and emotional tone consistency. AudioStory has two appealing features: (1) Decoupled bridging mechanism: AudioStory disentangles LLM-diffuser collaboration into two specialized components, i.e., a bridging query for intra-event semantic alignment and a residual query for cross-event coherence preservation. (2) End-to-end training: By unifying instruction comprehension and audio generation within a single end-to-end framework, AudioStory eliminates the need for modular training pipelines while enhancing synergy between components. Furthermore, we establish a benchmark AudioStory-10K, encompassing diverse domains such as animated soundscapes and natural sound narratives. Extensive experiments show the superiority of AudioStory on both single-audio generation and narrative audio generation, surpassing prior TTA baselines in both instruction-following ability and audio fidelity. Our code is available at https://github.com/TencentARC/AudioStory
PDF203August 28, 2025