Paper2Web: Vamos Dar Vida ao Seu Artigo!
Paper2Web: Let's Make Your Paper Alive!
October 17, 2025
Autores: Yuhang Chen, Tianpeng Lv, Siyi Zhang, Yixiang Yin, Yao Wan, Philip S. Yu, Dongping Chen
cs.AI
Resumo
Os sites de projetos acadêmicos podem disseminar pesquisas de forma mais eficaz quando apresentam o conteúdo principal de maneira clara e permitem navegação e interação intuitivas. No entanto, as abordagens atuais, como a geração direta por modelos de linguagem de grande escala (LLM), o uso de templates ou a conversão direta para HTML, enfrentam dificuldades para produzir sites com layouts bem planejados e interativos, e uma suíte abrangente de avaliação para essa tarefa tem sido inexistente. Neste artigo, apresentamos o Paper2Web, um conjunto de dados de referência e um framework de avaliação multidimensional para a geração de páginas da web acadêmicas. Ele incorpora métricas baseadas em regras, como Conectividade e Completude, e a avaliação por LLM como juiz verificada por humanos (cobrindo interatividade, estética e informatividade), além do PaperQuiz, que mede a retenção de conhecimento em nível de artigo. Também apresentamos o PWAgent, um pipeline autônomo que converte artigos científicos em páginas iniciais acadêmicas interativas e ricas em multimídia. O agente refina iterativamente tanto o conteúdo quanto o layout por meio de ferramentas MCP que aprimoram ênfase, equilíbrio e qualidade de apresentação. Nossos experimentos mostram que o PWAgent supera consistentemente as abordagens de linha de base de ponta a ponta, como páginas baseadas em templates e versões arXiv/alphaXiv, por uma grande margem, mantendo baixo custo e alcançando a fronteira de Pareto na geração de páginas da web acadêmicas.
English
Academic project websites can more effectively disseminate research when they
clearly present core content and enable intuitive navigation and interaction.
However, current approaches such as direct Large Language Model (LLM)
generation, templates, or direct HTML conversion struggle to produce
layout-aware, interactive sites, and a comprehensive evaluation suite for this
task has been lacking. In this paper, we introduce Paper2Web, a benchmark
dataset and multi-dimensional evaluation framework for assessing academic
webpage generation. It incorporates rule-based metrics like Connectivity,
Completeness and human-verified LLM-as-a-Judge (covering interactivity,
aesthetics, and informativeness), and PaperQuiz, which measures paper-level
knowledge retention. We further present PWAgent, an autonomous pipeline that
converts scientific papers into interactive and multimedia-rich academic
homepages. The agent iteratively refines both content and layout through MCP
tools that enhance emphasis, balance, and presentation quality. Our experiments
show that PWAgent consistently outperforms end-to-end baselines like
template-based webpages and arXiv/alphaXiv versions by a large margin while
maintaining low cost, achieving the Pareto-front in academic webpage
generation.