Feitelijkheid Telt: Wanneer Beeldgeneratie en Bewerking Gestructureerde Visuele Elementen Ontmoeten
Factuality Matters: When Image Generation and Editing Meet Structured Visuals
October 6, 2025
Auteurs: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI
Samenvatting
Hoewel moderne modellen voor visuele generatie uitblinken in het creëren van esthetisch aantrekkelijke natuurlijke afbeeldingen, hebben ze moeite met het produceren of bewerken van gestructureerde visuals zoals grafieken, diagrammen en wiskundige figuren, die compositieplanning, tekstweergave en multimodale redenering vereisen voor feitelijke nauwkeurigheid. Om dit aan te pakken, presenteren we het eerste uitgebreide, systematische onderzoek van dit domein, dat data-constructie, modeltraining en een evaluatiebenchmark omvat. Ten eerste construeren we een grootschalige dataset van 1,3 miljoen hoogwaardige gestructureerde afbeeldingsparen, afgeleid van uitvoerbare tekenprogramma's en aangevuld met keten-van-gedachte redeneringsannotaties. Hierop voortbouwend trainen we een unificatiemodel dat een VLM integreert met FLUX.1 Kontext via een lichtgewicht connector voor verbeterde multimodale begripsvorming. Een driedelige trainingscurriculum maakt progressieve kenmerkuitlijning, kennisinfusie en redeneringsversterkte generatie mogelijk, verder versterkt door een externe redeneerder tijdens de inferentiefase. Ten slotte introduceren we StructBench, een nieuwe benchmark voor generatie en bewerking met meer dan 1.700 uitdagende instanties, en een bijbehorende evaluatiemetriek, StructScore, die een meerronde Q&A-protocol gebruikt om fijnmazige feitelijke nauwkeurigheid te beoordelen. Evaluaties van 15 modellen laten zien dat zelfs toonaangevende closed-source systemen verre van bevredigend presteren. Ons model behaalt sterke bewerkingsprestaties, en inferentie-tijd redenering levert consistente verbeteringen op bij diverse architecturen. Door de dataset, het model en de benchmark vrij te geven, streven we ernaar om de unificatie van multimodale fundamenten voor gestructureerde visuals te bevorderen.
English
While modern visual generation models excel at creating aesthetically
pleasing natural images, they struggle with producing or editing structured
visuals like charts, diagrams, and mathematical figures, which demand
composition planning, text rendering, and multimodal reasoning for factual
fidelity. To address this, we present the first comprehensive, systematic
investigation of this domain, encompassing data construction, model training,
and an evaluation benchmark. First, we construct a large-scale dataset of 1.3
million high-quality structured image pairs derived from executable drawing
programs and augmented with chain-of-thought reasoning annotations. Building on
it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a
lightweight connector for enhanced multimodal understanding. A three-stage
training curriculum enables progressive feature alignment, knowledge infusion,
and reasoning-augmented generation, further boosted by an external reasoner at
inference time. Finally, we introduce StructBench, a novel benchmark for
generation and editing with over 1,700 challenging instances, and an
accompanying evaluation metric, StructScore, which employs a multi-round Q\&A
protocol to assess fine-grained factual accuracy. Evaluations of 15 models
reveal that even leading closed-source systems remain far from satisfactory.
Our model attains strong editing performance, and inference-time reasoning
yields consistent gains across diverse architectures. By releasing the dataset,
model, and benchmark, we aim to advance unified multimodal foundations for
structured visuals.