ChatPaper.aiChatPaper

PodAgent: Um Framework Abrangente para Geração de Podcasts

PodAgent: A Comprehensive Framework for Podcast Generation

March 1, 2025
Autores: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee
cs.AI

Resumo

Os métodos existentes de geração automática de áudio enfrentam dificuldades para produzir programas de áudio semelhantes a podcasts de forma eficaz. Os principais desafios residem na geração de conteúdo aprofundado e na produção de vozes adequadas e expressivas. Este artigo propõe o PodAgent, uma estrutura abrangente para a criação de programas de áudio. O PodAgent 1) gera conteúdo informativo de discussão de tópicos por meio de um sistema de colaboração multiagente Host-Convidado-Escritor, 2) constrói um pool de vozes para correspondência adequada de voz-papel e 3) utiliza um método de síntese de fala aprimorado por LLM para gerar fala conversacional expressiva. Dada a ausência de critérios padronizados de avaliação para geração de áudio semelhante a podcasts, desenvolvemos diretrizes abrangentes de avaliação para avaliar efetivamente o desempenho do modelo. Os resultados experimentais demonstram a eficácia do PodAgent, superando significativamente a geração direta do GPT-4 no conteúdo de diálogo de discussão de tópicos, alcançando uma precisão de 87,4% na correspondência de voz e produzindo fala mais expressiva por meio da síntese guiada por LLM. Página de demonstração: https://podcast-agent.github.io/demo/. Código-fonte: https://github.com/yujxx/PodAgent.
English
Existing Existing automatic audio generation methods struggle to generate podcast-like audio programs effectively. The key challenges lie in in-depth content generation, appropriate and expressive voice production. This paper proposed PodAgent, a comprehensive framework for creating audio programs. PodAgent 1) generates informative topic-discussion content by designing a Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis method to generate expressive conversational speech. Given the absence of standardized evaluation criteria for podcast-like audio generation, we developed comprehensive assessment guidelines to effectively evaluate the model's performance. Experimental results demonstrate PodAgent's effectiveness, significantly surpassing direct GPT-4 generation in topic-discussion dialogue content, achieving an 87.4% voice-matching accuracy, and producing more expressive speech through LLM-guided synthesis. Demo page: https://podcast-agent.github.io/demo/. Source code: https://github.com/yujxx/PodAgent.

Summary

AI-Generated Summary

PDF62March 4, 2025