SlideTailor: Gepersonaliseerde Presentatiedia-generatie voor Wetenschappelijke Artikelen
SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
December 23, 2025
Auteurs: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng
cs.AI
Samenvatting
Automatische presentatiedia-generatie kan de contentcreatie aanzienlijk stroomlijnen. Omdat de voorkeuren van elke gebruiker echter kunnen verschillen, leiden bestaande ondergespecificeerde formuleringen vaak tot suboptimale resultaten die niet aansluiten bij individuele gebruikersbehoeften. Wij introduceren een nieuwe taak die de generatie van dia's op basis van wetenschappelijke artikelen conditioneert op door de gebruiker gespecificeerde voorkeuren. Wij stellen een op menselijk gedrag geïnspireerd agent-gebaseerd raamwerk voor, SlideTailor, dat op een gebruikersgerichte manier progressief bewerkbare dia's genereert. In plaats van gebruikers te vragen hun voorkeuren in gedetailleerde tekstvorm te beschrijven, vraagt ons systeem slechts om een voorbeeldpaar (artikel-dia's) en een visuele template - natuurlijke en gemakkelijk te leveren artefacten die impliciet rijke gebruikersvoorkeuren coderen op het gebied van inhoud en visuele stijl. Ondanks de impliciete en ongelabelde aard van deze invoer, destilleert en generaliseert ons raamwerk de voorkeuren effectief om gepersonaliseerde diageneratie te sturen. Wij introduceren ook een nieuw chain-of-speech-mechanisme om de diainhoud af te stemmen op geplande mondelinge narratie. Een dergelijk ontwerp verbetert de kwaliteit van gegenereerde dia's aanzienlijk en maakt downstream-toepassingen zoals videopresentaties mogelijk. Om deze nieuwe taak te ondersteunen, construeren we een benchmarkdataset die diverse gebruikersvoorkeuren vastlegt, met zorgvuldig ontworpen interpreteerbare metrieken voor robuuste evaluatie. Uitgebreide experimenten demonstreren de effectiviteit van ons raamwerk.
English
Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.