Представление доклада — это искусство: эстетические агенты самосовершенствования для академических презентаций
Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations
October 7, 2025
Авторы: Chengzhi Liu, Yuzhe Yang, Kaiwen Zhou, Zhen Zhang, Yue Fan, Yannan Xie, Peng Qi, Xin Eric Wang
cs.AI
Аннотация
Продвижение научных статей стало важным средством повышения видимости исследований. Однако существующие автоматизированные методы сталкиваются с ограниченным повествованием, недостаточным эстетическим качеством и ограниченной способностью к самонастройке, что затрудняет эффективное и увлекательное распространение. В основе этих проблем лежит простой принцип: невозможно улучшить то, что нельзя правильно оценить. Для решения этой задачи мы представляем EvoPresent — фреймворк для самообучающегося агента, который объединяет последовательные повествования, эстетически осознанный дизайн и реалистичную подачу через виртуальных персонажей. Ключевым элементом EvoPresent является PresAesth — многозадачная модель эстетики на основе обучения с подкреплением (RL), которая обеспечивает надежную оценку эстетики, корректировку дефектов и сравнительную обратную связь, что позволяет осуществлять итеративное самообучение даже при ограниченных данных для эстетической тренировки. Для систематической оценки методов мы представляем EvoPresent Benchmark — всеобъемлющий бенчмарк, включающий: Качество генерации презентаций, основанный на 650 лучших статьях с конференций по ИИ с мультимодальными ресурсами (слайды, видео и сценарии) для оценки как содержания, так и дизайна; и Эстетическое восприятие, состоящее из 2000 пар слайдов с различным уровнем эстетики, поддерживающее совместное обучение и оценку по шкалированию, корректировке дефектов и сравнению. Наши результаты показывают, что (i) Высококачественная обратная связь необходима для самообучения агента, тогда как начальные способности сами по себе не гарантируют эффективной самокоррекции. (ii) Автоматизированные процессы генерации демонстрируют компромисс между визуальным дизайном и построением контента. (iii) Многозадачное обучение с подкреплением показывает более сильную обобщаемость в задачах эстетического восприятия.
English
The promotion of academic papers has become an important means of enhancing
research visibility. However, existing automated methods struggle limited
storytelling, insufficient aesthetic quality, and constrained self-adjustment,
making it difficult to achieve efficient and engaging dissemination. At the
heart of those challenges is a simple principle: there is no way to
improve it when you cannot evaluate it right. To address this, we introduce
EvoPresent, a self-improvement agent framework that unifies coherent
narratives, aesthetic-aware designs, and realistic presentation delivery via
virtual characters. Central to EvoPresent is PresAesth, a multi-task
reinforcement learning (RL) aesthetic model that provides reliable aesthetic
scoring, defect adjustment, and comparative feedback, enabling iterative
self-improvement even under limited aesthetic training data. To systematically
evaluate the methods, we introduce EvoPresent Benchmark, a
comprehensive benchmark comprising: Presentation Generation Quality,
built on 650 top-tier AI conference papers with multimodal resources (slides,
videos and scripts) to assess both content and design; and Aesthetic
Awareness, consisting of 2,000 slide pairs with varying aesthetic levels,
supporting joint training and evaluation on scoring, defect adjustment, and
comparison. Our findings highlight that (i) High-quality feedback is essential
for agent self-improvement, while initial capability alone does not guarantee
effective self-correction. (ii) Automated generation pipelines exhibit a
trade-off between visual design and content construction. (iii) Multi-task RL
training shows stronger generalization in aesthetic awareness tasks.