Crafter: Ein Multi-Agenten-Rahmenwerk zur Generierung editierbarer wissenschaftlicher Abbildungen aus verschiedenen Eingaben

Zusammenfassung

Wissenschaftliche Abbildungen gehören zu den effektivsten Mitteln, um komplexe Forschungsideen zu vermitteln, doch die Erstellung publikationsreifer Illustrationen bleibt einer der arbeitsintensivsten Teile der Manuskripterstellung. Existierende automatisierte Systeme zielen jeweils auf einen einzigen Abbildungstyp unter reiner Texteingabe ab und lassen die Vielfalt der tatsächlich von Forschern genutzten Typen und Bedingungen unberücksichtigt; ihre Rasterausgaben können zudem nicht lokal überarbeitet werden. Da wissenschaftliche Abbildungen strukturierte Kompositionen diskreter semantischer Komponenten sind, erfordern die lokalisierten Fehler, die Generatoren bei solchen Layouts produzieren, nicht ein leistungsfähigeres Backend, sondern eine Steuerungsarchitektur. Wir setzen diese Architektur in zwei komplementären Systemen um: Crafter, ein Multi-Agenten-Steuerungsrahmenwerk zur Abbildungsgenerierung, das ohne Architekturänderungen über Abbildungstypen und Eingabebedingungen hinweg generalisiert, und CraftEditor, das dasselbe Muster anwendet, um Rasterausgaben in editierbare SVGs zu überführen. Darüber hinaus führen wir CraftBench ein, einen Benchmark, der drei Abbildungstypen und vier Eingabebedingungen mit menschlicher Qualitätsannotation abdeckt. Experimente zeigen, dass Crafter sowohl eigenständige Generatoren als auch die agentische Baseline auf PaperBanana-Bench und CraftBench deutlich übertrifft, wobei Ablationsstudien den unabhängigen Beitrag jeder Komponente bestätigen; CraftEditor wandelt Ausgaben originalgetreu in editierbare SVGs um, die alle Baselines übertreffen. Unser Code und Benchmark sind verfügbar unter https://github.com/HaozheZhao/Crafter.

English

Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.