SlideTailor: Geração Personalizada de Slides de Apresentação para Artigos Científicos
SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
December 23, 2025
Autores: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng
cs.AI
Resumo
A geração automática de slides de apresentação pode otimizar significativamente a criação de conteúdo. No entanto, como as preferências de cada utilizador podem variar, as formulações subespecificadas existentes frequentemente resultam em resultados subóptimos que não se alinham com as necessidades individuais dos utilizadores. Introduzimos uma nova tarefa que condiciona a geração de slides a partir de artigos científicos com base em preferências especificadas pelo utilizador. Propomos um quadro agentivo inspirado no comportamento humano, o SlideTailor, que gera progressivamente slides editáveis de forma alinhada com o utilizador. Em vez de exigir que os utilizadores descrevam suas preferências em formato textual detalhado, nosso sistema solicita apenas um par de exemplo artigo-slides e um modelo visual - artefactos naturais e de fácil fornecimento que codificam implicitamente ricas preferências do utilizador em conteúdo e estilo visual. Apesar da natureza implícita e não rotulada dessas entradas, nosso quadro destila e generaliza eficazmente as preferências para orientar a geração personalizada de slides. Também introduzimos um novo mecanismo de cadeia de discurso para alinhar o conteúdo dos slides com a narração oral planeada. Tal projeto melhora significativamente a qualidade dos slides gerados e permite aplicações subsequentes, como apresentações em vídeo. Para suportar esta nova tarefa, construímos um conjunto de dados de referência que captura diversas preferências dos utilizadores, com métricas interpretáveis cuidadosamente desenhadas para avaliação robusta. Experimentos extensivos demonstram a eficácia do nosso quadro.
English
Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.