SlideTailor: Personalisierte Erstellung von Präsentationsfolien für wissenschaftliche Arbeiten
SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
December 23, 2025
papers.authors: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng
cs.AI
papers.abstract
Die automatische Generierung von Präsentationsfolien kann die Erstellung von Inhalten erheblich vereinfachen. Da jedoch die Präferenzen jedes Nutzers variieren können, führen bestehende unzureichend spezifizierte Formulierungen oft zu suboptimalen Ergebnissen, die nicht mit den individuellen Nutzerbedürfnissen übereinstimmen. Wir stellen eine neuartige Aufgabe vor, die die Generierung von Folien aus wissenschaftlichen Artikeln an benutzerdefinierte Präferenzen anpasst. Wir schlagen ein von menschlichem Verhalten inspiriertes agentenbasiertes Framework namens SlideTailor vor, das schrittweise bearbeitbare Folien auf eine nutzerorientierte Weise generiert. Anstatt von Nutzern zu verlangen, ihre Präferenzen in detaillierter Textform anzugeben, fordert unser System lediglich ein Beispielpaar aus Artikel und Folien sowie eine visuelle Vorlage – natürliche und einfach bereitzustellende Artefakte, die implizit umfangreiche Nutzerpräferenzen bezüglich Inhalt und visuellem Stil kodieren. Trotz der impliziten und unmarkierten Natur dieser Eingaben destilliert und verallgemeinert unser Framework die Präferenzen effektiv, um eine angepasste Foliengenerierung zu steuern. Wir führen außerdem einen neuartigen Chain-of-Speech-Mechanismus ein, um Folieninhalte mit geplanter mündlicher Darstellung abzustimmen. Ein solches Design verbessert die Qualität der generierten Folien erheblich und ermöglicht nachgelagerte Anwendungen wie Videopräsentationen. Um diese neue Aufgabe zu unterstützen, erstellen wir einen Benchmark-Datensatz, der verschiedene Nutzerpräferenzen erfasst, mit sorgfältig entworfenen interpretierbaren Metriken für eine robuste Evaluation. Umfangreiche Experimente demonstrieren die Wirksamkeit unseres Frameworks.
English
Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.