Crafter : Un harnais multi-agent pour la génération de figures scientifiques modifiables à partir d'entrées diverses

Résumé

Les figures scientifiques comptent parmi les moyens les plus efficaces pour communiquer des idées de recherche complexes, mais la production d'illustrations de qualité publication reste l'une des étapes les plus laborieuses de la préparation d'un article. Les systèmes automatisés existants ciblent chacun un seul type de figure à partir d'une entrée uniquement textuelle, laissant de côté la diversité des types et des conditions réellement utilisés par les chercheurs ; leurs sorties matricielles ne peuvent en outre être révisées localement. Comme les figures scientifiques sont des compositions structurées de composants sémantiques discrets, les erreurs localisées que génèrent les modèles sur de telles mises en page nécessitent non pas un socle plus solide, mais un harnais. Nous concrétisons ce harnais dans deux systèmes complémentaires : Crafter, un harnais multi-agent pour la génération de figures qui s'adapte à différents types de figures et conditions d'entrée sans modification architecturale, et CraftEditor, qui applique le même principe pour convertir les sorties matricielles en SVG modifiables. De plus, nous introduisons CraftBench, un référentiel couvrant trois types de figures et quatre conditions d'entrée avec annotation humaine de la qualité. Les expériences montrent que Crafter surpasse nettement à la fois les générateurs autonomes et la référence agentique sur PaperBanana-Bench et CraftBench, les ablations confirmant la contribution indépendante de chaque composant ; CraftEditor convertit fidèlement les sorties en SVG modifiables qui surpassent toutes les références. Notre code et notre référentiel sont disponibles à l'adresse https://github.com/HaozheZhao/Crafter.

English

Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.