PodAgent: Um Framework Abrangente para Geração de Podcasts
PodAgent: A Comprehensive Framework for Podcast Generation
March 1, 2025
Autores: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee
cs.AI
Resumo
Os métodos existentes de geração automática de áudio enfrentam dificuldades para produzir programas de áudio semelhantes a podcasts de forma eficaz. Os principais desafios residem na geração de conteúdo aprofundado e na produção de vozes adequadas e expressivas. Este artigo propõe o PodAgent, uma estrutura abrangente para a criação de programas de áudio. O PodAgent 1) gera conteúdo informativo de discussão de tópicos por meio de um sistema de colaboração multiagente Host-Convidado-Escritor, 2) constrói um pool de vozes para correspondência adequada de voz-papel e 3) utiliza um método de síntese de fala aprimorado por LLM para gerar fala conversacional expressiva. Dada a ausência de critérios padronizados de avaliação para geração de áudio semelhante a podcasts, desenvolvemos diretrizes abrangentes de avaliação para avaliar efetivamente o desempenho do modelo. Os resultados experimentais demonstram a eficácia do PodAgent, superando significativamente a geração direta do GPT-4 no conteúdo de diálogo de discussão de tópicos, alcançando uma precisão de 87,4% na correspondência de voz e produzindo fala mais expressiva por meio da síntese guiada por LLM. Página de demonstração: https://podcast-agent.github.io/demo/. Código-fonte: https://github.com/yujxx/PodAgent.
English
Existing Existing automatic audio generation methods struggle to generate
podcast-like audio programs effectively. The key challenges lie in in-depth
content generation, appropriate and expressive voice production. This paper
proposed PodAgent, a comprehensive framework for creating audio programs.
PodAgent 1) generates informative topic-discussion content by designing a
Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for
suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis
method to generate expressive conversational speech. Given the absence of
standardized evaluation criteria for podcast-like audio generation, we
developed comprehensive assessment guidelines to effectively evaluate the
model's performance. Experimental results demonstrate PodAgent's effectiveness,
significantly surpassing direct GPT-4 generation in topic-discussion dialogue
content, achieving an 87.4% voice-matching accuracy, and producing more
expressive speech through LLM-guided synthesis. Demo page:
https://podcast-agent.github.io/demo/. Source code:
https://github.com/yujxx/PodAgent.Summary
AI-Generated Summary