Crafter: Een multi-agent raamwerk voor het genereren van bewerkbare wetenschappelijke figuren vanuit diverse invoeren

Samenvatting

Wetenschappelijke figuren behoren tot de meest effectieve middelen om complexe onderzoeksideeën over te brengen, maar het produceren van publicatiekwaliteit illustraties blijft een van de meest arbeidsintensieve onderdelen van het voorbereiden van een artikel. Bestaande geautomatiseerde systemen richten zich elk op één enkel figuurtype met alleen tekstinvoer, waardoor de diversiteit aan typen en omstandigheden die onderzoekers daadwerkelijk gebruiken onbehandeld blijft; hun rasteruitvoer kan bovendien niet lokaal worden herzien. Omdat wetenschappelijke figuren gestructureerde composities zijn van discrete semantische componenten, vereisen de gelokaliseerde fouten die generatoren op dergelijke lay-outs produceren niet een sterker raamwerk, maar een harnas. Wij implementeren dit harnas in twee complementaire systemen: Crafter, een multi-agent harnas voor figuurproductie dat generaliseert over figuurtypen en invoeromstandigheden zonder architecturale wijzigingen, en CraftEditor, dat hetzelfde patroon toepast om rasteruitvoer om te zetten in bewerkbare SVG's. Daarnaast introduceren we CraftBench, een benchmark die drie figuurtypen en vier invoeromstandigheden bestrijkt met menselijke kwaliteitsannotatie. Experimenten tonen aan dat Crafter aanzienlijk beter presteert dan zowel standalone generatoren als het agentische baseline op PaperBanana-Bench en CraftBench, waarbij ablatiestudies de onafhankelijke bijdrage van elke component bevestigen; CraftEditor zet uitvoer getrouw om in bewerkbare SVG's die alle baselines overtreffen. Onze code en benchmark zijn beschikbaar op https://github.com/HaozheZhao/Crafter.

English

Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.