ChatPaper.aiChatPaper

PodAgent : Un cadre complet pour la génération de podcasts

PodAgent: A Comprehensive Framework for Podcast Generation

March 1, 2025
Auteurs: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee
cs.AI

Résumé

Les méthodes existantes de génération automatique de contenu audio peinent à produire efficacement des programmes audio de type podcast. Les principaux défis résident dans la génération de contenu approfondi et la production vocale appropriée et expressive. Cet article propose PodAgent, un cadre complet pour la création de programmes audio. PodAgent 1) génère un contenu de discussion thématique informatif grâce à un système de collaboration multi-agent Hôte-Invité-Rédacteur, 2) constitue un pool de voix pour un appariement rôle-voix adéquat, et 3) utilise une méthode de synthèse vocale améliorée par LLM pour produire un discours conversationnel expressif. Face à l'absence de critères d'évaluation standardisés pour la génération de contenu audio de type podcast, nous avons développé des lignes directrices d'évaluation complètes pour mesurer efficacement les performances du modèle. Les résultats expérimentaux démontrent l'efficacité de PodAgent, surpassant significativement la génération directe par GPT-4 en termes de contenu de dialogue thématique, atteignant une précision de 87,4 % dans l'appariement des voix, et produisant un discours plus expressif grâce à la synthèse guidée par LLM. Page de démonstration : https://podcast-agent.github.io/demo/. Code source : https://github.com/yujxx/PodAgent.
English
Existing Existing automatic audio generation methods struggle to generate podcast-like audio programs effectively. The key challenges lie in in-depth content generation, appropriate and expressive voice production. This paper proposed PodAgent, a comprehensive framework for creating audio programs. PodAgent 1) generates informative topic-discussion content by designing a Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis method to generate expressive conversational speech. Given the absence of standardized evaluation criteria for podcast-like audio generation, we developed comprehensive assessment guidelines to effectively evaluate the model's performance. Experimental results demonstrate PodAgent's effectiveness, significantly surpassing direct GPT-4 generation in topic-discussion dialogue content, achieving an 87.4% voice-matching accuracy, and producing more expressive speech through LLM-guided synthesis. Demo page: https://podcast-agent.github.io/demo/. Source code: https://github.com/yujxx/PodAgent.

Summary

AI-Generated Summary

PDF62March 4, 2025