Фактуальность имеет значение: когда генерация и редактирование изображений встречаются с структурированной визуализацией
Factuality Matters: When Image Generation and Editing Meet Structured Visuals
October 6, 2025
Авторы: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI
Аннотация
Хотя современные модели генерации изображений преуспевают в создании эстетически привлекательных натуральных изображений, они испытывают трудности с созданием или редактированием структурированных визуализаций, таких как графики, диаграммы и математические фигуры, которые требуют планирования композиции, рендеринга текста и мультимодального рассуждения для обеспечения фактической точности. Для решения этой проблемы мы представляем первое всестороннее и систематическое исследование этой области, охватывающее создание данных, обучение моделей и эталонный тест для оценки. Сначала мы создаем крупномасштабный набор данных из 1,3 миллиона пар высококачественных структурированных изображений, полученных из исполняемых программ рисования и дополненных аннотациями с цепочкой рассуждений. На его основе мы обучаем унифицированную модель, которая интегрирует VLM с FLUX.1 Kontext через легковесный соединитель для улучшенного мультимодального понимания. Трехэтапная программа обучения позволяет достичь прогрессивного выравнивания признаков, внедрения знаний и генерации, усиленной рассуждениями, что дополнительно улучшается с помощью внешнего модуля рассуждений на этапе вывода. Наконец, мы представляем StructBench — новый эталонный тест для генерации и редактирования, содержащий более 1700 сложных примеров, и сопровождающую его метрику оценки StructScore, которая использует многораундовый протокол вопросов и ответов для оценки детальной фактической точности. Оценка 15 моделей показывает, что даже ведущие закрытые системы остаются далеки от удовлетворительных результатов. Наша модель демонстрирует высокую производительность в редактировании, а использование рассуждений на этапе вывода обеспечивает стабильные улучшения для различных архитектур. Публикуя набор данных, модель и эталонный тест, мы стремимся продвинуть унифицированные мультимодальные основы для работы со структурированными визуализациями.
English
While modern visual generation models excel at creating aesthetically
pleasing natural images, they struggle with producing or editing structured
visuals like charts, diagrams, and mathematical figures, which demand
composition planning, text rendering, and multimodal reasoning for factual
fidelity. To address this, we present the first comprehensive, systematic
investigation of this domain, encompassing data construction, model training,
and an evaluation benchmark. First, we construct a large-scale dataset of 1.3
million high-quality structured image pairs derived from executable drawing
programs and augmented with chain-of-thought reasoning annotations. Building on
it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a
lightweight connector for enhanced multimodal understanding. A three-stage
training curriculum enables progressive feature alignment, knowledge infusion,
and reasoning-augmented generation, further boosted by an external reasoner at
inference time. Finally, we introduce StructBench, a novel benchmark for
generation and editing with over 1,700 challenging instances, and an
accompanying evaluation metric, StructScore, which employs a multi-round Q\&A
protocol to assess fine-grained factual accuracy. Evaluations of 15 models
reveal that even leading closed-source systems remain far from satisfactory.
Our model attains strong editing performance, and inference-time reasoning
yields consistent gains across diverse architectures. By releasing the dataset,
model, and benchmark, we aim to advance unified multimodal foundations for
structured visuals.