ChatPaper.aiChatPaper

AudioStory: Gerando Áudio Narrativo de Longa Duração com Modelos de Linguagem de Grande Escala

AudioStory: Generating Long-Form Narrative Audio with Large Language Models

August 27, 2025
Autores: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
cs.AI

Resumo

Avanços recentes na geração de texto para áudio (TTA) têm se destacado na síntese de clipes de áudio curtos, mas enfrentam dificuldades com áudios narrativos de longa duração, que exigem coerência temporal e raciocínio composicional. Para preencher essa lacuna, propomos o AudioStory, um framework unificado que integra modelos de linguagem de grande escala (LLMs) com sistemas TTA para gerar narrativas de áudio estruturadas e de longa duração. O AudioStory possui fortes capacidades de geração de raciocínio orientado por instruções. Ele emprega LLMs para decompor consultas narrativas complexas em sub-tarefas ordenadas temporalmente com pistas contextuais, permitindo transições de cena coerentes e consistência no tom emocional. O AudioStory apresenta duas características atraentes: (1) Mecanismo de ponte desacoplado: O AudioStory separa a colaboração entre LLM e difusor em dois componentes especializados, ou seja, uma consulta de ponte para alinhamento semântico intra-evento e uma consulta residual para preservação da coerência inter-evento. (2) Treinamento de ponta a ponta: Ao unificar a compreensão de instruções e a geração de áudio em um único framework de ponta a ponta, o AudioStory elimina a necessidade de pipelines de treinamento modular, ao mesmo tempo em que aumenta a sinergia entre os componentes. Além disso, estabelecemos um benchmark AudioStory-10K, abrangendo diversos domínios, como paisagens sonoras animadas e narrativas de sons naturais. Experimentos extensivos mostram a superioridade do AudioStory tanto na geração de áudio único quanto na geração de áudio narrativo, superando as linhas de base TTA anteriores tanto na capacidade de seguir instruções quanto na fidelidade do áudio. Nosso código está disponível em https://github.com/TencentARC/AudioStory.
English
Recent advances in text-to-audio (TTA) generation excel at synthesizing short audio clips but struggle with long-form narrative audio, which requires temporal coherence and compositional reasoning. To address this gap, we propose AudioStory, a unified framework that integrates large language models (LLMs) with TTA systems to generate structured, long-form audio narratives. AudioStory possesses strong instruction-following reasoning generation capabilities. It employs LLMs to decompose complex narrative queries into temporally ordered sub-tasks with contextual cues, enabling coherent scene transitions and emotional tone consistency. AudioStory has two appealing features: (1) Decoupled bridging mechanism: AudioStory disentangles LLM-diffuser collaboration into two specialized components, i.e., a bridging query for intra-event semantic alignment and a residual query for cross-event coherence preservation. (2) End-to-end training: By unifying instruction comprehension and audio generation within a single end-to-end framework, AudioStory eliminates the need for modular training pipelines while enhancing synergy between components. Furthermore, we establish a benchmark AudioStory-10K, encompassing diverse domains such as animated soundscapes and natural sound narratives. Extensive experiments show the superiority of AudioStory on both single-audio generation and narrative audio generation, surpassing prior TTA baselines in both instruction-following ability and audio fidelity. Our code is available at https://github.com/TencentARC/AudioStory
PDF203August 28, 2025