AudioStory : Génération de narrations audio longues avec des modèles de langage à grande échelle
AudioStory: Generating Long-Form Narrative Audio with Large Language Models
August 27, 2025
papers.authors: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
cs.AI
papers.abstract
Les récents progrès dans la génération texte-audio (TTA) excellent dans la synthèse de courts clips audio mais peinent à produire des narrations audio longues, qui nécessitent une cohérence temporelle et un raisonnement compositionnel. Pour combler cette lacune, nous proposons AudioStory, un cadre unifié qui intègre des modèles de langage de grande taille (LLMs) avec des systèmes TTA pour générer des narrations audio structurées et longues. AudioStory possède de solides capacités de génération raisonnée en suivant des instructions. Il utilise des LLMs pour décomposer des requêtes narratives complexes en sous-tâches ordonnées temporellement avec des indices contextuels, permettant des transitions de scène cohérentes et une consistance du ton émotionnel. AudioStory présente deux caractéristiques attrayantes : (1) Mécanisme de pontage découplé : AudioStory sépare la collaboration LLM-diffuseur en deux composants spécialisés, à savoir une requête de pontage pour l'alignement sémantique intra-événement et une requête résiduelle pour la préservation de la cohérence inter-événements. (2) Entraînement de bout en bout : En unifiant la compréhension des instructions et la génération audio dans un seul cadre de bout en bout, AudioStory élimine le besoin de pipelines d'entraînement modulaires tout en améliorant la synergie entre les composants. De plus, nous établissons un benchmark AudioStory-10K, couvrant divers domaines tels que les paysages sonores animés et les narrations sonores naturelles. Des expériences approfondies montrent la supériorité d'AudioStory à la fois dans la génération d'audio unique et dans la génération de narrations audio, surpassant les baselines TTA précédentes en termes de capacité à suivre les instructions et de fidélité audio. Notre code est disponible à l'adresse https://github.com/TencentARC/AudioStory.
English
Recent advances in text-to-audio (TTA) generation excel at synthesizing short
audio clips but struggle with long-form narrative audio, which requires
temporal coherence and compositional reasoning. To address this gap, we propose
AudioStory, a unified framework that integrates large language models (LLMs)
with TTA systems to generate structured, long-form audio narratives. AudioStory
possesses strong instruction-following reasoning generation capabilities. It
employs LLMs to decompose complex narrative queries into temporally ordered
sub-tasks with contextual cues, enabling coherent scene transitions and
emotional tone consistency. AudioStory has two appealing features: (1)
Decoupled bridging mechanism: AudioStory disentangles LLM-diffuser
collaboration into two specialized components, i.e., a bridging query for
intra-event semantic alignment and a residual query for cross-event coherence
preservation. (2) End-to-end training: By unifying instruction comprehension
and audio generation within a single end-to-end framework, AudioStory
eliminates the need for modular training pipelines while enhancing synergy
between components. Furthermore, we establish a benchmark AudioStory-10K,
encompassing diverse domains such as animated soundscapes and natural sound
narratives. Extensive experiments show the superiority of AudioStory on both
single-audio generation and narrative audio generation, surpassing prior TTA
baselines in both instruction-following ability and audio fidelity. Our code is
available at https://github.com/TencentARC/AudioStory