PodAgent : Un cadre complet pour la génération de podcasts
PodAgent: A Comprehensive Framework for Podcast Generation
March 1, 2025
Auteurs: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee
cs.AI
Résumé
Les méthodes existantes de génération automatique de contenu audio peinent à produire efficacement des programmes audio de type podcast. Les principaux défis résident dans la génération de contenu approfondi et la production vocale appropriée et expressive. Cet article propose PodAgent, un cadre complet pour la création de programmes audio. PodAgent 1) génère un contenu de discussion thématique informatif grâce à un système de collaboration multi-agent Hôte-Invité-Rédacteur, 2) constitue un pool de voix pour un appariement rôle-voix adéquat, et 3) utilise une méthode de synthèse vocale améliorée par LLM pour produire un discours conversationnel expressif. Face à l'absence de critères d'évaluation standardisés pour la génération de contenu audio de type podcast, nous avons développé des lignes directrices d'évaluation complètes pour mesurer efficacement les performances du modèle. Les résultats expérimentaux démontrent l'efficacité de PodAgent, surpassant significativement la génération directe par GPT-4 en termes de contenu de dialogue thématique, atteignant une précision de 87,4 % dans l'appariement des voix, et produisant un discours plus expressif grâce à la synthèse guidée par LLM. Page de démonstration : https://podcast-agent.github.io/demo/. Code source : https://github.com/yujxx/PodAgent.
English
Existing Existing automatic audio generation methods struggle to generate
podcast-like audio programs effectively. The key challenges lie in in-depth
content generation, appropriate and expressive voice production. This paper
proposed PodAgent, a comprehensive framework for creating audio programs.
PodAgent 1) generates informative topic-discussion content by designing a
Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for
suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis
method to generate expressive conversational speech. Given the absence of
standardized evaluation criteria for podcast-like audio generation, we
developed comprehensive assessment guidelines to effectively evaluate the
model's performance. Experimental results demonstrate PodAgent's effectiveness,
significantly surpassing direct GPT-4 generation in topic-discussion dialogue
content, achieving an 87.4% voice-matching accuracy, and producing more
expressive speech through LLM-guided synthesis. Demo page:
https://podcast-agent.github.io/demo/. Source code:
https://github.com/yujxx/PodAgent.Summary
AI-Generated Summary