SlideTailor: 과학 논문 맞춤형 프레젠테이션 슬라이드 생성
SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
December 23, 2025
저자: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng
cs.AI
초록
자동 프레젠테이션 슬라이드 생성은 콘텐츠 제작 과정을 크게 효율화할 수 있습니다. 그러나 사용자별 선호도가 다양할 수 있기 때문에, 기존의 불충분하게 명시된 방식은 종종 개별 사용자 요구에 부합하지 않는 차선의 결과를 초래합니다. 본 연구에서는 논문-슬라이드 변환 과정을 사용자가 지정한 선호도에 따라 조건화하는 새로운 과제를 소개합니다. 우리는 인간의 행동 방식을 모방한 에이전트 기반 프레임워크인 SlideTailor를 제안하며, 이는 사용자에 부합하는 방식으로 점진적으로 편집 가능한 슬라이드를 생성합니다. 사용자에게 선호도를 상세한 텍스트 형태로 작성하도록 요구하는 대신, 우리 시스템은 논문-슬라이드 예시 쌍과 시각적 템플릿이라는, 내용과 시각적 스타일 전반에 걸친 풍부한 사용자 선호도를 암묵적으로 담고 있는 자연스럽고 제공하기 쉬운 자료만을 요구합니다. 이러한 입력값이 암묵적이고 레이블이 지정되지 않았음에도 불구하고, 우리의 프레임워크는 선호도를 효과적으로 추출하고 일반화하여 맞춤형 슬라이드 생성을 안내합니다. 또한 슬라이드 내용이 계획된 구두 발표와 일치하도록 하는 새로운 체인-오브-스피치 메커니즘을 도입합니다. 이러한 설계는 생성된 슬라이드의 품질을 크게 향상시키고 영상 프레젠테이션과 같은 하류 응용 프로그램을 가능하게 합니다. 이 새로운 과제를 지원하기 위해 다양한 사용자 선호도를 포착한 벤치마크 데이터셋을 구축하고, 강력한 평가를 위해 신중하게 설계된 해석 가능한 지표를 제시합니다. 광범위한 실험을 통해 우리 프레임워크의 효과성을 입증합니다.
English
Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.