PodAgent: Un Marco Integral para la Generación de Podcasts
PodAgent: A Comprehensive Framework for Podcast Generation
March 1, 2025
Autores: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee
cs.AI
Resumen
Los métodos existentes de generación automática de audio tienen dificultades para producir programas de audio similares a podcasts de manera efectiva. Los principales desafíos radican en la generación de contenido en profundidad y la producción de voces apropiadas y expresivas. Este artículo propone PodAgent, un marco integral para la creación de programas de audio. PodAgent 1) genera contenido informativo de discusión de temas mediante el diseño de un sistema de colaboración multiagente Host-Invitado-Escritor, 2) construye un banco de voces para una adecuada asignación de roles vocales y 3) utiliza un método de síntesis de voz mejorado por LLM para generar habla conversacional expresiva. Dada la ausencia de criterios de evaluación estandarizados para la generación de audio similar a podcasts, desarrollamos pautas de evaluación integrales para valorar efectivamente el rendimiento del modelo. Los resultados experimentales demuestran la efectividad de PodAgent, superando significativamente la generación directa con GPT-4 en el contenido de diálogo de discusión de temas, alcanzando un 87.4% de precisión en la asignación de voces y produciendo habla más expresiva mediante la síntesis guiada por LLM. Página de demostración: https://podcast-agent.github.io/demo/. Código fuente: https://github.com/yujxx/PodAgent.
English
Existing Existing automatic audio generation methods struggle to generate
podcast-like audio programs effectively. The key challenges lie in in-depth
content generation, appropriate and expressive voice production. This paper
proposed PodAgent, a comprehensive framework for creating audio programs.
PodAgent 1) generates informative topic-discussion content by designing a
Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for
suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis
method to generate expressive conversational speech. Given the absence of
standardized evaluation criteria for podcast-like audio generation, we
developed comprehensive assessment guidelines to effectively evaluate the
model's performance. Experimental results demonstrate PodAgent's effectiveness,
significantly surpassing direct GPT-4 generation in topic-discussion dialogue
content, achieving an 87.4% voice-matching accuracy, and producing more
expressive speech through LLM-guided synthesis. Demo page:
https://podcast-agent.github.io/demo/. Source code:
https://github.com/yujxx/PodAgent.Summary
AI-Generated Summary