Crafter: многоагентная платформа для генерации редактируемых научных иллюстраций из различных входных данных

Аннотация

Научные иллюстрации являются одними из наиболее эффективных средств передачи сложных исследовательских идей, однако создание иллюстраций качества, пригодного для публикации, остаётся одной из самых трудоёмких частей подготовки статьи. Существующие автоматизированные системы каждая нацелены на один тип иллюстрации при вводе только в виде текста, оставляя без внимания разнообразие типов и условий, которые исследователи реально используют; их растровые выходные данные, кроме того, не поддаются локальному исправлению. Поскольку научные иллюстрации представляют собой структурированные композиции дискретных семантических компонентов, локализованные ошибки, которые генераторы порождают на таких макетах, требуют не более мощного «движка», а управляющей обвязки. Мы реализуем эту обвязку в двух дополняющих друг друга системах: Crafter – многоагентной управляющей системе для генерации иллюстраций, которая обобщается на различные типы иллюстраций и входные условия без изменений архитектуры, и CraftEditor, который применяет тот же шаблон для преобразования растровых выходных данных в редактируемые SVG. Кроме того, мы представляем CraftBench – эталонный набор данных, охватывающий три типа иллюстраций и четыре входных условия с аннотацией качества, выполненной человеком. Эксперименты показывают, что Crafter существенно превосходит как автономные генераторы, так и агентный базовый подход на PaperBanana-Bench и CraftBench, а абляции подтверждают независимый вклад каждого компонента; CraftEditor точно преобразует выходные данные в редактируемые SVG, превосходя все базовые подходы. Наш код и бенчмарк доступны по адресу https://github.com/HaozheZhao/Crafter.

English

Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.