Crafter: Um Arnês Multiagente para Geração de Figuras Científicas Editáveis a partir de Entradas Diversas

Resumo

As figuras científicas estão entre os meios mais eficazes de comunicar ideias complexas de pesquisa, mas produzir ilustrações com qualidade para publicação continua a ser uma das partes mais trabalhosas da preparação de artigos. Os sistemas automatizados existentes visam cada um um único tipo de figura com entrada apenas de texto, deixando sem abordar a diversidade de tipos e condições que os pesquisadores realmente utilizam; suas saídas raster, além disso, não podem ser revisadas localmente. Como as figuras científicas são composições estruturadas de componentes semânticos discretos, os erros localizados que os geradores produzem em tais layouts exigem não uma espinha dorsal mais forte, mas um arcabouço. Materializamos este arcabouço em dois sistemas complementares: Crafter, um arcabouço multiagente para geração de figuras que generaliza entre tipos de figuras e condições de entrada sem alterações arquitetônicas, e CraftEditor, que aplica o mesmo padrão para converter saídas raster em SVGs editáveis. Além disso, apresentamos o CraftBench, um benchmark abrangendo três tipos de figuras e quatro condições de entrada com anotação de qualidade humana. Experimentos mostram que Crafter supera substancialmente tanto geradores autônomos quanto a linha de base agentiva no PaperBanana-Bench e no CraftBench, com ablações confirmando a contribuição independente de cada componente; CraftEditor converte fielmente saídas em SVGs editáveis que superam todas as linhas de base. Nosso código e benchmark estão disponíveis em https://github.com/HaozheZhao/Crafter.

English

Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.