Crafter: una herramienta multiagente para la generación de figuras científicas editables a partir de diversas entradas
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
May 28, 2026
Autores: Haozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun, Minjia Zhang
cs.AI
Resumen
Las figuras científicas se encuentran entre los medios más efectivos para comunicar ideas complejas de investigación, sin embargo, la producción de ilustraciones de calidad para publicación sigue siendo una de las partes más laboriosas de la preparación de artículos. Los sistemas automatizados existentes se enfocan cada uno en un solo tipo de figura bajo entrada únicamente textual, dejando sin abordar la diversidad de tipos y condiciones que los investigadores realmente utilizan; además, sus salidas rasterizadas no pueden ser revisadas localmente. Debido a que las figuras científicas son composiciones estructuradas de componentes semánticos discretos, los errores localizados que los generadores producen en dichos diseños requieren no un modelo base más potente sino un arnés. Materializamos este arnés en dos sistemas complementarios: Crafter, un arnés multiagente para la generación de figuras que se generaliza a través de tipos de figuras y condiciones de entrada sin cambios arquitectónicos, y CraftEditor, que aplica el mismo patrón para convertir salidas rasterizadas en SVG editables. Además, presentamos CraftBench, un punto de referencia que abarca tres tipos de figuras y cuatro condiciones de entrada con anotación humana de calidad. Los experimentos muestran que Crafter supera sustancialmente tanto a los generadores independientes como a la línea base agentiva en PaperBanana-Bench y CraftBench, con ablaciones que confirman la contribución independiente de cada componente; CraftEditor convierte fielmente las salidas en SVG editables que superan todas las líneas base. Nuestro código y punto de referencia están disponibles en https://github.com/HaozheZhao/Crafter.
English
Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.