SlideTailor: Generazione Personalizzata di Diapositive per Presentazioni di Articoli Scientifici
SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
December 23, 2025
Autori: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng
cs.AI
Abstract
La generazione automatica di diapositive per presentazioni può ottimizzare notevolmente la creazione di contenuti. Tuttavia, poiché le preferenze di ciascun utente possono variare, le formulazioni esistenti sotto-specificate spesso producono risultati subottimali che non soddisfano le esigenze individuali. Introduciamo un nuovo compito che condiziona la generazione di diapositive da articoli scientifici in base alle preferenze specificate dall'utente. Proponiamo SlideTailor, un framework agentivo ispirato al comportamento umano, che genera progressivamente diapositive modificabili in modo allineato alle preferenze dell'utente. Invece di richiedere agli utenti di descrivere le proprie preferenze in forma testuale dettagliata, il nostro sistema richiede solo una coppia di esempio carta-diapositive e un template visivo - elementi naturali e facili da fornire che codificano implicitamente le ricche preferenze dell'utente sia per il contenuto che per lo stile visivo. Nonostante la natura implicita e non etichettata di questi input, il nostro framework distilla e generalizza efficacemente le preferenze per guidare la generazione personalizzata di diapositive. Introduciamo inoltre un innovativo meccanismo a catena del discorso per allineare il contenuto delle diapositive con la narrazione orale pianificata. Tale design migliora significativamente la qualità delle diapositive generate e abilita applicazioni downstream come presentazioni video. Per supportare questo nuovo compito, abbiamo costruito un dataset di benchmark che cattura preferenze utente diversificate, con metriche interpretabili progettate attentamente per una valutazione robusta. Esperimenti estensivi dimostrano l'efficacia del nostro framework.
English
Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.