Crafter:多様な入力から編集可能な科学図を生成するためのマルチエージェントハーネス
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
May 28, 2026
著者: Haozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun, Minjia Zhang
cs.AI
要旨
科学図は複雑な研究アイデアを伝える最も効果的な手段の一つであるが、出版に耐える品質の図を作成することは、論文作成の中で最も労力を要する工程の一つであり続けている。既存の自動化システムはそれぞれがテキストのみの入力下で単一の図タイプを対象としており、研究者が実際に使用する多様なタイプや条件には対応していない。さらに、それらのラスター出力は局所的な修正が不可能である。科学図は離散的な意味的構成要素からなる構造化された合成物であるため、そのようなレイアウト上で生成器が生み出す局所的な誤りには、より強力なバックボーンではなく、ハーネス(制御機構)が必要となる。我々はこのハーネスを2つの相補的なシステムとして実装する。すなわち、アーキテクチャの変更なしに図タイプや入力条件を横断して汎化する図生成用マルチエージェントハーネス「Crafter」と、同じパターンを適用してラスター出力を編集可能なSVGに変換する「CraftEditor」である。さらに我々は、3つの図タイプと4つの入力条件をカバーし、人手による品質アノテーションを備えたベンチマーク「CraftBench」を導入する。実験により、CrafterはPaperBanana-BenchおよびCraftBenchにおいて、単体の生成器やエージェントベースのベースラインを大幅に上回り、アブレーション研究により各コンポーネントの独立した貢献が確認された。またCraftEditorは出力を忠実に編集可能なSVGに変換し、すべてのベースラインを凌駕する。我々のコードとベンチマークはhttps://github.com/HaozheZhao/Crafter で公開している。
English
Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.