SlideTailor: Generación de Diapositivas de Presentación Personalizadas para Artículos Científicos
SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
December 23, 2025
Autores: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng
cs.AI
Resumen
La generación automática de diapositivas para presentaciones puede agilizar enormemente la creación de contenido. Sin embargo, dado que las preferencias de cada usuario pueden variar, las formulaciones existentes poco especificadas a menudo generan resultados subóptimos que no se alinean con las necesidades individuales de los usuarios. Introducimos una nueva tarea que condiciona la generación de diapositivas a partir de artículos científicos en las preferencias especificadas por el usuario. Proponemos un marco agéntico inspirado en el comportamiento humano, SlideTailor, que genera progresivamente diapositivas editables de manera alineada con el usuario. En lugar de requerir que los usuarios escriban sus preferencias en forma textual detallada, nuestro sistema solo solicita un par de ejemplo artículo-diapositivas y una plantilla visual, artefactos naturales y fáciles de proporcionar que codifican implícitamente las ricas preferencias del usuario en cuanto a contenido y estilo visual. A pesar de la naturaleza implícita y no etiquetada de estas entradas, nuestro marco destila y generaliza eficazmente las preferencias para guiar la generación de diapositivas personalizadas. También introducimos un novedoso mecanismo de cadena de discurso para alinear el contenido de las diapositivas con la narración oral planificada. Este diseño mejora significativamente la calidad de las diapositivas generadas y permite aplicaciones posteriores, como presentaciones en video. Para respaldar esta nueva tarea, construimos un conjunto de datos de referencia que captura diversas preferencias de los usuarios, con métricas interpretables cuidadosamente diseñadas para una evaluación robusta. Experimentos exhaustivos demuestran la efectividad de nuestro marco.
English
Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.